Diktenin genellikle başarısız olduğu an
Geçen Salı sabahı köpeği gezdiriyordum, kafamda bir sahne kuruyordum. İki karakter, Ezra ve Lyra, yarı su basmış bir bodrumda nehrin kasten yön değiştirip değiştirmediği konusunda tartışıyorlardı. İyi sahne. Tüm olarak gelip klavyenin başına oturduğun anda kaybolan türden.
Bu yüzden, telefon taşıyan her yazarın yaptığını yaptım. Bir dikte uygulaması açtım ve konuşmaya başladım. Üç dakika sonra sahne elimdeydi. Beş dakika sonra transkript elimdeydi. „Ezra"nın her örneği „Israel"e dönüşmüştü. „Lyra"nın her örneği „Lila"ya dönüşmüştü. Bodrum artık „the bay" oldu, nehir „the reefer" oldu. Yarım saat ara-değiştir işleminden sonra sahne sayfadaydı, ama kıvılcım gitmişti.
Bu, sesli kurgu yazmanın evrensel deneyimi. Genel dikte modelleri kitabını hiç okumadı. Karakter listeni bile okumadı. Özel isimleri haber makalelerinin sıklık tablosundan tahmin ederler, bu yüzden alışılmadık isimler — kurgunun kullanmaya eğilimli olduğu tam o isimler — yaygın olanlara yeniden yazılır. Ezra Israel'e. Lyra Lila'ya. Saoirse „Sersha"ya. Caitlyn „Caitlin"e (ya da daha kötüsüne).
Çözüm yapısal. Dikte modelinin transkribe etmeye başlamadan önce projen hakkında bilgi sahibi olması gerekiyor. MimicReader'ın Writing Studio editörü tam bunu yapar.
Tipik dikte neden romancılar için başarısız olur
Alternatiflerin hızlı turu, dürüst notlarla:
- Google Web Speech / Chrome diktesi — hızlı, ücretsiz, tarayıcıda çalışır. Müsveddenden sıfır bilir. Alışılmadık olan her şeyi en yakın yaygın sözcükle değiştirir. ~60 saniye sessizlikten sonra dinlemeyi keser. Ses Google'a gönderilir.
- Apple Diktesi (iOS) — iOS 17'den beri cihaz üstü model biraz daha iyi, ama korpus hala genel İngilizce. Birkaç „metin değişimi" ekleyebilirsin ama modeli bias etmez, sadece belirli stringleri sonradan işler.
- Otter.ai — toplantılar için yapılmış. Zoom çağrısında konuşmacıları tanımakta harika. Kahramanının adının Soren olduğunu ve „soaring" olmadığını bilmekte işe yaramaz.
- Dragon Naturally Speaking — eski kral. Özel sözlük eğitebilirsin, ama iş akışı zahmetli, lisans yüzlerce pound, mobil hikayesi sıkıntılı.
- Sade Whisper (açık kaynak model) — çoğu modern aracın arkasındaki gerçek transkripsiyon motoru. Mükemmel, ama verdiğin prompt kadar iyi. Kutu dışı, sıfır roman bağlamı.
Örüntü: bu araçların hiçbiri senin dünyanı bilmez. Bilemezler, çünkü hiçbiri müsveddenin içinde değil. Belirli bir işe cıvatalanmış genel amaçlı araçlardır.
MimicReader'ın sesli diktesi nasıl çalışır
Writing Studio editörü karakter listenden, blurbunden ve şu an düzenlediğin bölümden bir tık uzakta yaşar. Mikrofon düğmesine bastığında, perde arkasında olanlar:
- Tarayıcın sesi yerel olarak kaydeder (tarayıcı MediaRecorder API, streaming yok).
- Kaydı durdurduğunda, ses blob'u HTTPS üzerinden MimicReader sunucusuna yüklenir.
- Arka uç projenin meta verisini çeker — her adlandırılmış karakter, blurb, çalışma başlığı, önemli yer adları.
- Bu adlar Whisper'ın
initial_prompt'una biçimlendirilir — Whisper'ın decoder'ını bias etmek için kullandığı kısa bağlam dizesi. „Aşağıdaki ses, yarı su basmış Veridia şehrinde geçen, Ezra, Lyra, Saoirse'nin geçtiği bir romandan…" - Whisper Large V3 Turbo sesi altyapımız üzerinde transkribe eder. Prompt onu özel isimlerine doğru bias eder — Ezra Ezra olarak kalır.
- Transkript bölüm editöründeki imleç konumuna eklenir.
- Orijinal ses hesabında bir Not olarak kaydedilir, böylece Whisper bir kelimeyi yanlış işittiyse ve kaynaktan düzeltmek istiyorsan tekrar dinleyebilirsin.
İşin sırrı bu. Whisper birinci günden beri initial_prompt'u destekliyor, ama hiçbir tüketici dikte aracı bunu bir müsveddeye otomatik olarak bağlamıyor. Biz yapıyoruz, çünkü müsvedde hemen orada.
Ezra Vance, Lyra Ó Dálaigh ve Saoirse Quinn varsa, Whisper'ın çıkardığı tam o yazımlardır. „Israel", „Lila" ya da „Sersha"ya otomatik düzeltme yok. Karakterlerinin adlarını korursun.
Sesin burada kalır
Bu bölüm insanların düşündüğünden daha çok önemli. Dikte araçları sesinle bir şey yapmak zorunda. Varsayılanlar her zaman dostça değil.
- Google Web Speech sesi Google sunucularına gönderir. Onu ne için kullandıklarına ve AB ile UK avukatlarının eğitim verisi konusunda sonunda ne anlaşmaya varacaklarına bağlı.
- Otter, Rev, Trint sesi varsayılan olarak bulutlarında süresiz saklar. Manuel silebilirsin. Anonim toplu veriyle eğitim yaparlar — şartlar tier'a göre değişir.
- Apple Diktesi kısa söylemler için cihazda kalır, ama gelişmiş dikte eve telefon edebilir.
MimicReader vaadle değil, mimari ile farklı:
- Ses bizim altyapımıza (İskoçya'da bir sunucu kabinindeki) gönderilir, OpenAI'a, Google'a ya da herhangi bir üçüncü tarafa değil.
- Transkripsiyon barındırdığımız yerel bir Whisper modelinde çalışır. Üçüncü taraf transkripsiyon servisi için API anahtarı yok. Üçüncü taraf yok.
- Ses hesabında bir Not olarak saklanır. Yalnız sen dinleyebilirsin. Notes sekmesinden istediğin zaman silebilirsin. Hesap silme (GDPR Madde 17) onu da temizler.
- Sesin ya da müsveddenin üzerinde hiçbir model eğitmiyoruz. Tam stop.
Hassas bir sahneyi dikte ederken hiç huzursuzluk hissettiysen — bir anı bölümü, gizli bir röportaj, Google ML ekibinin asla görmesini istemediğin doruk olay örgüsü dönüşü — bu, bunun için endişelenmemen sağlayan sürümdür.
Mobil iş akışı
Mikrofon düğmesi mobil Chrome ve Safari'de çalışır. Kullandığım gerçek iş akışı, köpek kendi kendine yürümeyeceği için:
- Cepte S24 Ultra, kulakta kulaklık, sol elde köpek tasması.
- mimicreader.ai/app'i aç, üzerinde çalıştığım bölüme git.
- Mikrofona bas (editör araç çubuğunun altında büyük kırmızı bir nokta — kaçırması zor).
- Konuş. Tüm paragraflar. Tüm sahneler. Sabah iyiyse tüm bölümler.
- Dur'a bas. On saniye bekle. Transkript inline görünür.
- Yürümeye devam et. Sonraki sahne için tekrarla.
Whisper Large V3 Turbo hızlıdır. Üç dakikalık dikte altyapımız üzerinde yaklaşık sekiz saniyede transkribe edilir. Telefonu cebime geri koyup köpeği bir elektrik direğini koklarken izlediğimde, metin bölümün içindedir.
Söz etmeye değer bir batarya maliyeti yok, çünkü cihaz üstü hiçbir model çalışmıyor — telefonun yaptığı tek şey kayıt ve kayıt neredeyse hiçbir şey kullanmıyor. Biraz ağ maliyeti var: üç dakikalık Opus blob'u yaklaşık 1 MB. 4G'de ucuz, ev Wi-Fi'sinde ücretsiz.
Ne kaydedilir (ve neden)
Her dikteyi bitirdiğinde iki şey:
- Transkript — imleçte eklenmiş, anında düzenlenebilir. Birincil çıktı bu.
- Orijinal ses — hesabında bir Not olarak arşivlenmiş, kaydın zaman damgası ve dikte edildiği bölüme bir geri bağlantı ile.
Ses arşivi önemli çünkü Whisper, bias ile bile mükemmel değil. Belki „the morning when I"yı „the moaning weather" olarak duydu. Belki rüzgar bir kelimeyi yakaladı ve onu saçmalığa çevirdi. Notlarda orijinal ses bir dokunuş uzakta olduğunda, tam ifadeyi tekrar oynatabilir, gerçekten ne söylediğini duyabilir ve transkripti düzeltebilirsin. Üç gün sonra bellekten yeniden inşa etmek yok.
Notlar görünümü ayrıca ham sesi sonrası için biriktirmene de izin verir. Pazartesi yürüyüşünde dört sahne taslağını dikte et. Çarşamba akşamı, bir kahveyle otur, Notlar sekmesini aç, geri dinle ve hangilerinin saklamaya değer olduğuna karar ver. Bu, ses notlarından sesli kitaba pipeline'ının kullandığı aynı örüntüdür, sadece Promote-to-chapter düğmesi yerine doğrudan editöre bağlı.
Nasıl etkinleştirilir
Writing Studio şu anda bir feature flag'in arkasında, çünkü editörün bazı parçaları hala parlatılıyor. Açmak için:
- MimicReader uygulamasında /settings'i aç.
- Writing Studio'ya kaydır.
- Anahtarı aç. Kaydet.
- Herhangi bir proje bölümü aç. Editör araç çubuğunda artık biçimlendirme düğmelerinin yanında bir mikrofon simgesi var.
- Tıkla. Tarayıcı sorduğunda mikrofon erişimine izin ver. Konuş.
Hepsi bu. Uzantı yok, kurulum yok, ayrı uygulama yok. Mikrofon düğmesi, Writing Studio etkinleştirildiği an editörün bir parçasıdır.
İş akışını dene
Hiç sabah 7'de yeni bir belge açıp kafanda bir sahne tutarak ilk paragrafın yazımına onu kaybettiysen, bu o sorunu düzelten iş akışıdır. Ses kıvılcımı korur. Proje farkındalıklı dikte karakterlerinin adlarını korur.
Sonraki bölümünü dikte et
Her MimicReader hesabında ücretsiz. Ekstra kredi yok, istek başına maliyet yok. Sadece editör, mikrofon ve zaten yazdığın isimler.
Ücretsiz başla