Diktenin genellikle başarısız olduğu an

Geçen Salı sabahı köpeği gezdiriyordum, kafamda bir sahne kuruyordum. İki karakter, Ezra ve Lyra, yarı su basmış bir bodrumda nehrin kasten yön değiştirip değiştirmediği konusunda tartışıyorlardı. İyi sahne. Tüm olarak gelip klavyenin başına oturduğun anda kaybolan türden.

Bu yüzden, telefon taşıyan her yazarın yaptığını yaptım. Bir dikte uygulaması açtım ve konuşmaya başladım. Üç dakika sonra sahne elimdeydi. Beş dakika sonra transkript elimdeydi. „Ezra"nın her örneği „Israel"e dönüşmüştü. „Lyra"nın her örneği „Lila"ya dönüşmüştü. Bodrum artık „the bay" oldu, nehir „the reefer" oldu. Yarım saat ara-değiştir işleminden sonra sahne sayfadaydı, ama kıvılcım gitmişti.

Bu, sesli kurgu yazmanın evrensel deneyimi. Genel dikte modelleri kitabını hiç okumadı. Karakter listeni bile okumadı. Özel isimleri haber makalelerinin sıklık tablosundan tahmin ederler, bu yüzden alışılmadık isimler — kurgunun kullanmaya eğilimli olduğu tam o isimler — yaygın olanlara yeniden yazılır. Ezra Israel'e. Lyra Lila'ya. Saoirse „Sersha"ya. Caitlyn „Caitlin"e (ya da daha kötüsüne).

Çözüm yapısal. Dikte modelinin transkribe etmeye başlamadan önce projen hakkında bilgi sahibi olması gerekiyor. MimicReader'ın Writing Studio editörü tam bunu yapar.

Tipik dikte neden romancılar için başarısız olur

Alternatiflerin hızlı turu, dürüst notlarla:

Örüntü: bu araçların hiçbiri senin dünyanı bilmez. Bilemezler, çünkü hiçbiri müsveddenin içinde değil. Belirli bir işe cıvatalanmış genel amaçlı araçlardır.

MimicReader'ın sesli diktesi nasıl çalışır

Writing Studio editörü karakter listenden, blurbunden ve şu an düzenlediğin bölümden bir tık uzakta yaşar. Mikrofon düğmesine bastığında, perde arkasında olanlar:

  1. Tarayıcın sesi yerel olarak kaydeder (tarayıcı MediaRecorder API, streaming yok).
  2. Kaydı durdurduğunda, ses blob'u HTTPS üzerinden MimicReader sunucusuna yüklenir.
  3. Arka uç projenin meta verisini çeker — her adlandırılmış karakter, blurb, çalışma başlığı, önemli yer adları.
  4. Bu adlar Whisper'ın initial_prompt'una biçimlendirilir — Whisper'ın decoder'ını bias etmek için kullandığı kısa bağlam dizesi. „Aşağıdaki ses, yarı su basmış Veridia şehrinde geçen, Ezra, Lyra, Saoirse'nin geçtiği bir romandan…"
  5. Whisper Large V3 Turbo sesi altyapımız üzerinde transkribe eder. Prompt onu özel isimlerine doğru bias eder — Ezra Ezra olarak kalır.
  6. Transkript bölüm editöründeki imleç konumuna eklenir.
  7. Orijinal ses hesabında bir Not olarak kaydedilir, böylece Whisper bir kelimeyi yanlış işittiyse ve kaynaktan düzeltmek istiyorsan tekrar dinleyebilirsin.

İşin sırrı bu. Whisper birinci günden beri initial_prompt'u destekliyor, ama hiçbir tüketici dikte aracı bunu bir müsveddeye otomatik olarak bağlamıyor. Biz yapıyoruz, çünkü müsvedde hemen orada.

„Proje farkındalıklı" somut olarak ne anlama gelir: karakter listende Ezra Vance, Lyra Ó Dálaigh ve Saoirse Quinn varsa, Whisper'ın çıkardığı tam o yazımlardır. „Israel", „Lila" ya da „Sersha"ya otomatik düzeltme yok. Karakterlerinin adlarını korursun.

Sesin burada kalır

Bu bölüm insanların düşündüğünden daha çok önemli. Dikte araçları sesinle bir şey yapmak zorunda. Varsayılanlar her zaman dostça değil.

MimicReader vaadle değil, mimari ile farklı:

Hassas bir sahneyi dikte ederken hiç huzursuzluk hissettiysen — bir anı bölümü, gizli bir röportaj, Google ML ekibinin asla görmesini istemediğin doruk olay örgüsü dönüşü — bu, bunun için endişelenmemen sağlayan sürümdür.

Mobil iş akışı

Mikrofon düğmesi mobil Chrome ve Safari'de çalışır. Kullandığım gerçek iş akışı, köpek kendi kendine yürümeyeceği için:

  1. Cepte S24 Ultra, kulakta kulaklık, sol elde köpek tasması.
  2. mimicreader.ai/app'i aç, üzerinde çalıştığım bölüme git.
  3. Mikrofona bas (editör araç çubuğunun altında büyük kırmızı bir nokta — kaçırması zor).
  4. Konuş. Tüm paragraflar. Tüm sahneler. Sabah iyiyse tüm bölümler.
  5. Dur'a bas. On saniye bekle. Transkript inline görünür.
  6. Yürümeye devam et. Sonraki sahne için tekrarla.

Whisper Large V3 Turbo hızlıdır. Üç dakikalık dikte altyapımız üzerinde yaklaşık sekiz saniyede transkribe edilir. Telefonu cebime geri koyup köpeği bir elektrik direğini koklarken izlediğimde, metin bölümün içindedir.

Söz etmeye değer bir batarya maliyeti yok, çünkü cihaz üstü hiçbir model çalışmıyor — telefonun yaptığı tek şey kayıt ve kayıt neredeyse hiçbir şey kullanmıyor. Biraz ağ maliyeti var: üç dakikalık Opus blob'u yaklaşık 1 MB. 4G'de ucuz, ev Wi-Fi'sinde ücretsiz.

Ne kaydedilir (ve neden)

Her dikteyi bitirdiğinde iki şey:

  1. Transkript — imleçte eklenmiş, anında düzenlenebilir. Birincil çıktı bu.
  2. Orijinal ses — hesabında bir Not olarak arşivlenmiş, kaydın zaman damgası ve dikte edildiği bölüme bir geri bağlantı ile.

Ses arşivi önemli çünkü Whisper, bias ile bile mükemmel değil. Belki „the morning when I"yı „the moaning weather" olarak duydu. Belki rüzgar bir kelimeyi yakaladı ve onu saçmalığa çevirdi. Notlarda orijinal ses bir dokunuş uzakta olduğunda, tam ifadeyi tekrar oynatabilir, gerçekten ne söylediğini duyabilir ve transkripti düzeltebilirsin. Üç gün sonra bellekten yeniden inşa etmek yok.

Notlar görünümü ayrıca ham sesi sonrası için biriktirmene de izin verir. Pazartesi yürüyüşünde dört sahne taslağını dikte et. Çarşamba akşamı, bir kahveyle otur, Notlar sekmesini aç, geri dinle ve hangilerinin saklamaya değer olduğuna karar ver. Bu, ses notlarından sesli kitaba pipeline'ının kullandığı aynı örüntüdür, sadece Promote-to-chapter düğmesi yerine doğrudan editöre bağlı.

Nasıl etkinleştirilir

Writing Studio şu anda bir feature flag'in arkasında, çünkü editörün bazı parçaları hala parlatılıyor. Açmak için:

  1. MimicReader uygulamasında /settings'i aç.
  2. Writing Studio'ya kaydır.
  3. Anahtarı aç. Kaydet.
  4. Herhangi bir proje bölümü aç. Editör araç çubuğunda artık biçimlendirme düğmelerinin yanında bir mikrofon simgesi var.
  5. Tıkla. Tarayıcı sorduğunda mikrofon erişimine izin ver. Konuş.

Hepsi bu. Uzantı yok, kurulum yok, ayrı uygulama yok. Mikrofon düğmesi, Writing Studio etkinleştirildiği an editörün bir parçasıdır.

İş akışını dene

Hiç sabah 7'de yeni bir belge açıp kafanda bir sahne tutarak ilk paragrafın yazımına onu kaybettiysen, bu o sorunu düzelten iş akışıdır. Ses kıvılcımı korur. Proje farkındalıklı dikte karakterlerinin adlarını korur.

Sonraki bölümünü dikte et

Her MimicReader hesabında ücretsiz. Ekstra kredi yok, istek başına maliyet yok. Sadece editör, mikrofon ve zaten yazdığın isimler.

Ücretsiz başla

Sonra nereye git