Moment, w którym dyktando zwykle pęka

W zeszły wtorek rano spacerowałem z psem i układałem w głowie scenę. Dwoje bohaterów, Ezra i Lyra, kłócą się w częściowo zalanej piwnicy o to, czy rzeka zmieniła koryto specjalnie. Dobra scena. Z gatunku tych, które pojawiają się w całości i znikają w chwili, gdy siadasz przed klawiaturą.

Zrobiłem więc to, co każdy piszący z telefonem w kieszeni. Otworzyłem aplikację do dyktowania i zacząłem mówić. Trzy minuty później miałem scenę. Pięć minut później miałem transkrypt. Każde „Ezra" zostało zamienione na „Israel". Każda „Lyra" na „Lila". Piwnica stała się „bayem", a rzeka „reefferem". Pół godziny szukania i zamiany później scena była na ekranie, ale iskra wygasła.

To uniwersalne doświadczenie pisania powieści głosem. Generyczne modele dyktanda nigdy nie czytały twojej książki. Nigdy nie widziały nawet listy postaci. Zgadują rzeczowniki własne ze statystyki artykułów prasowych, dlatego nietypowe imiona — czyli właśnie te, których używa literatura — są zamieniane na popularne. Ezra na Israel. Lyra na Lila. Saoirse na „Sersha". Witold na „Witolda" w nieodpowiednim przypadku.

Rozwiązanie jest strukturalne. Model dyktanda musi wiedzieć o twoim projekcie, zanim zacznie transkrybować. Edytor Writing Studio w MimicReaderze robi dokładnie to.

Dlaczego typowe dyktanda zawodzą piszących

Szybki przegląd alternatyw, oceniany uczciwie:

Wzorzec jest ten sam: żadne z tych narzędzi nie zna twojego świata. Nie może, bo żadne z nich nie jest wewnątrz twojego manuskryptu. To narzędzia ogólnego zastosowania doczepione do konkretnej pracy.

Jak działa dyktando w MimicReaderze

Edytor Writing Studio jest jedno kliknięcie od twojej listy postaci, blurba i rozdziału, nad którym właśnie pracujesz. Kiedy klikasz przycisk mikrofonu, kulisy wyglądają tak:

  1. Twoja przeglądarka nagrywa audio lokalnie (MediaRecorder API, bez streamingu).
  2. Kiedy zatrzymujesz nagrywanie, blob audio leci na GPU MimicReadera przez HTTPS.
  3. Backend ściąga metadane twojego projektu — wszystkie nazwane postaci, blurb, roboczy tytuł, kluczowe nazwy miejsc.
  4. Te imiona są wklejane do initial_prompt Whispera — krótkiego stringa kontekstu, którym Whisper biasuje swój dekoder. „Następujące audio pochodzi z powieści z bohaterami Ezra, Lyra, Saoirse… osadzonej w częściowo zalanym mieście Veridia…".
  5. Whisper Large V3 Turbo transkrybuje audio na naszej RTX 3090. Prompt biasuje go w stronę twoich nazw własnych — Ezra zostaje Ezrą.
  6. Transkrypt wskakuje w miejscu kursora w edytorze rozdziału.
  7. Oryginalne audio jest zapisywane jako notatka w twoim koncie, żebyś mógł odsłuchać, jeśli Whisper się przesłyszał i chcesz poprawić ze źródła.

To jest cała sztuczka. Whisper obsługuje initial_prompt od pierwszego dnia, ale żadne konsumenckie narzędzie dyktanda nie podłącza tego do manuskryptu automatycznie. My to robimy, bo manuskrypt jest tuż obok.

Co konkretnie znaczy „świadome projektu": jeśli twoja lista postaci zawiera Ezra Vance, Lyra Ó Dálaigh i Saoirse Quinn, to dokładnie te formy wypluje Whisper. Bez autokorekty na „Israel", „Lila" czy „Sersha". Bohaterowie zostają sobą.

Audio zostaje u nas

Ten fragment jest ważniejszy, niż się ludziom wydaje. Narzędzia dyktanda muszą coś zrobić z twoim głosem. Domyślne ustawienia nie zawsze są przyjazne.

MimicReader jest inny architekturą, nie obietnicą:

Jeśli kiedykolwiek krępowałeś się dyktować wrażliwą scenę — rozdział wspomnień, poufny wywiad, kluczowy zwrot akcji, którego nie chcesz pokazać żadnemu zespołowi ML w Google — to jest wersja, w której można się tym nie przejmować.

Mobilny workflow

Przycisk mikrofonu działa w mobilnym Chrome i Safari. Mój prawdziwy workflow, bo pies sam się nie wyprowadzi:

  1. S24 Ultra w kieszeni, słuchawki w uszach, smycz w lewej ręce.
  2. Otwieram mimicreader.ai/app, idę do rozdziału, nad którym pracuję.
  3. Klikam mikrofon (duża czerwona kropka na dole paska edytora — trudno przeoczyć).
  4. Mówię. Całe akapity. Całe sceny. Całe rozdziały, jeśli poranek się udał.
  5. Klikam stop. Czekam dziesięć sekund. Transkrypt pojawia się w tekście.
  6. Idę dalej. Powtarzam dla następnej sceny.

Whisper Large V3 Turbo jest szybki. Trzyminutowe dyktando transkrybuje się w okolicach ośmiu sekund na naszej 3090. Zanim odłożę telefon do kieszeni i popatrzę, jak pies obwąchuje latarnię, tekst jest w rozdziale.

Koszt baterii praktycznie żaden, bo żaden model on-device nie pracuje — telefon tylko nagrywa, a nagrywanie zużywa prawie nic. Jest pewien koszt transferu: trzyminutowy blob Opus to około 1 MB. Tanio na 4G, za darmo na domowym Wi-Fi.

Co się zapisuje (i po co)

Dwie rzeczy, za każdym razem gdy kończysz dyktando:

  1. Transkrypt — wstawiony w miejscu kursora, natychmiast edytowalny. To główny rezultat.
  2. Oryginalne audio — zarchiwizowane jako notatka w twoim koncie, z timestampem nagrania i linkiem z powrotem do rozdziału, do którego było dyktowane.

Archiwum audio ma znaczenie, bo Whisper, nawet z biasem, nie jest doskonały. Może usłyszał „rano kiedy" jako „rano się ciemnia". Może wiatr porwał jedno słowo i zamienił w bełkot. Z oryginalnym audio jeden tap od ciebie w Notach możesz odtworzyć dokładnie tę frazę, usłyszeć, co naprawdę powiedziałeś, i poprawić transkrypt. Bez rekonstrukcji z pamięci trzy dni później.

Widok Notes pozwala też zbierać surowe audio na później. Wydyktuj cztery szkice scen na poniedziałkowym spacerze. W środę wieczorem usiądź z kawą, otwórz zakładkę Notes, odsłuchaj i zdecyduj, które warto zachować. To ten sam wzorzec, którego używa pipeline z notatek głosowych do audiobooka, tylko podpięty bezpośrednio pod edytor zamiast pod przycisk Promote-to-chapter.

Jak to włączyć

Writing Studio jest na razie za flagą funkcji, bo części edytora wciąż polerujemy. Żeby włączyć:

  1. Otwórz /settings w aplikacji MimicReader.
  2. Przewiń do Writing Studio.
  3. Przestaw przełącznik na ON. Zapisz.
  4. Otwórz dowolny rozdział projektu. Pasek edytora ma teraz ikonę mikrofonu obok przycisków formatowania.
  5. Kliknij. Pozwól przeglądarce na dostęp do mikrofonu, kiedy zapyta. Mów.

Tyle. Żadnego rozszerzenia, żadnej instalacji, żadnej osobnej aplikacji. Przycisk mikrofonu jest częścią edytora od chwili, gdy włączysz Writing Studio.

Wypróbuj ten workflow

Jeśli kiedykolwiek otworzyłeś świeży dokument o siódmej rano ze sceną w głowie i straciłeś ją na pierwszym akapicie pisania, to jest workflow, który to naprawia. Głos trzyma iskrę. Dyktando świadome projektu trzyma imiona bohaterów.

Wydyktuj następny rozdział

Za darmo z każdym kontem MimicReader. Bez dodatkowych kredytów, bez kosztu per zapytanie. Tylko edytor, mikrofon i imiona, które już sam wpisałeś.

Zacznij za darmo

Co dalej