Moment, w którym dyktando zwykle pęka

W zeszły wtorek rano spacerowałem z psem i układałem w głowie scenę. Dwoje bohaterów, Ezra i Lyra, kłócą się w częściowo zalanej piwnicy o to, czy rzeka zmieniła koryto specjalnie. Dobra scena. Z gatunku tych, które pojawiają się w całości i znikają w chwili, gdy siadasz przed klawiaturą.

Zrobiłem więc to, co każdy piszący z telefonem w kieszeni. Otworzyłem aplikację do dyktowania i zacząłem mówić. Trzy minuty później miałem scenę. Pięć minut później miałem transkrypt. Każde „Ezra" zostało zamienione na „Israel". Każda „Lyra" na „Lila". Piwnica stała się „bayem", a rzeka „reefferem". Pół godziny szukania i zamiany później scena była na ekranie, ale iskra wygasła.

To uniwersalne doświadczenie pisania powieści głosem. Generyczne modele dyktanda nigdy nie czytały twojej książki. Nigdy nie widziały nawet listy postaci. Zgadują rzeczowniki własne ze statystyki artykułów prasowych, dlatego nietypowe imiona — czyli właśnie te, których używa literatura — są zamieniane na popularne. Ezra na Israel. Lyra na Lila. Saoirse na „Sersha". Witold na „Witolda" w nieodpowiednim przypadku.

Rozwiązanie jest strukturalne. Model dyktanda musi wiedzieć o twoim projekcie, zanim zacznie transkrybować. Edytor Writing Studio w MimicReaderze robi dokładnie to.

Dlaczego typowe dyktanda zawodzą piszących

Szybki przegląd alternatyw, oceniany uczciwie:

Google Web Speech / dyktando w Chrome — szybkie, darmowe, działa w przeglądarce. Wie zero o twoim manuskrypcie. Zamienia wszystko nietypowe na najbliższe popularne słowo. Przestaje słuchać po ~60 sekundach ciszy. Audio leci na serwery Google.
Dyktando Apple (iOS) — od iOS 17 lepszy model on-device, ale korpus to wciąż ogólny język. Można dodać kilka „zamian tekstu", ale to nie biasuje modelu, tylko post-procesuje konkretne ciągi.
Otter.ai — zbudowane do spotkań. Świetne w rozpoznawaniu mówców w Zoomie. Bezużyteczne, kiedy chodzi o to, że twój protagonista nazywa się Soren, a nie „soaring".
Dragon Naturally Speaking — stary król. Można trenować własny słownik, ale workflow jest uciążliwy, licencja kosztuje setki funtów, a mobilna wersja kuleje.
Czysty Whisper (model open source) — silnik transkrypcji w większości nowoczesnych narzędzi. Doskonały, ale tylko tak dobry, jak prompt który mu podasz. „Out of the box" zerowy kontekst powieści.

Wzorzec jest ten sam: żadne z tych narzędzi nie zna twojego świata. Nie może, bo żadne z nich nie jest wewnątrz twojego manuskryptu. To narzędzia ogólnego zastosowania doczepione do konkretnej pracy.

Jak działa dyktando w MimicReaderze

Edytor Writing Studio jest jedno kliknięcie od twojej listy postaci, blurba i rozdziału, nad którym właśnie pracujesz. Kiedy klikasz przycisk mikrofonu, kulisy wyglądają tak:

Twoja przeglądarka nagrywa audio lokalnie (MediaRecorder API, bez streamingu).
Kiedy zatrzymujesz nagrywanie, blob audio leci na GPU MimicReadera przez HTTPS.
Backend ściąga metadane twojego projektu — wszystkie nazwane postaci, blurb, roboczy tytuł, kluczowe nazwy miejsc.
Te imiona są wklejane do initial_prompt Whispera — krótkiego stringa kontekstu, którym Whisper biasuje swój dekoder. „Następujące audio pochodzi z powieści z bohaterami Ezra, Lyra, Saoirse… osadzonej w częściowo zalanym mieście Veridia…".
Whisper Large V3 Turbo transkrybuje audio na naszej RTX 3090. Prompt biasuje go w stronę twoich nazw własnych — Ezra zostaje Ezrą.
Transkrypt wskakuje w miejscu kursora w edytorze rozdziału.
Oryginalne audio jest zapisywane jako notatka w twoim koncie, żebyś mógł odsłuchać, jeśli Whisper się przesłyszał i chcesz poprawić ze źródła.

To jest cała sztuczka. Whisper obsługuje initial_prompt od pierwszego dnia, ale żadne konsumenckie narzędzie dyktanda nie podłącza tego do manuskryptu automatycznie. My to robimy, bo manuskrypt jest tuż obok.

        Co konkretnie znaczy „świadome projektu": jeśli twoja lista postaci zawiera Ezra Vance, Lyra Ó Dálaigh i Saoirse Quinn, to dokładnie te formy wypluje Whisper. Bez autokorekty na „Israel", „Lila" czy „Sersha". Bohaterowie zostają sobą.
    

Audio zostaje u nas

Ten fragment jest ważniejszy, niż się ludziom wydaje. Narzędzia dyktanda muszą coś zrobić z twoim głosem. Domyślne ustawienia nie zawsze są przyjazne.

Google Web Speech wysyła audio na serwery Google. Podlega temu, do czego oni tego używają — i temu, co ostatecznie wynegocjują prawnicy z UE i UK w sprawie danych treningowych.
Otter, Rev, Trint domyślnie trzymają twoje audio w chmurze bezterminowo. Możesz usunąć ręcznie. Trenują na zagregowanych, zanonimizowanych danych — warunki zależą od taryfy.
Dyktando Apple dla krótkich wypowiedzi zostaje na urządzeniu, ale rozszerzone dyktando potrafi dzwonić do domu.

MimicReader jest inny architekturą, nie obietnicą:

Audio leci na nasze GPU (RTX 3090 w szafie serwerowej pod Glasgow), a nie do OpenAI, Google czy jakiejkolwiek trzeciej strony.
Transkrypcja działa na lokalnym Whisperze, którego sami hostujemy. Nie ma klucza API do żadnej zewnętrznej usługi. Nie ma trzeciej strony.
Audio jest zapisane jako notatka w twoim koncie. Tylko ty możesz tego słuchać. Możesz usunąć z zakładki Notes w dowolnej chwili. Usunięcie konta (RODO art. 17) wyciera też audio.
Nie trenujemy żadnego modelu na twoim audio ani manuskrypcie. Kropka.

Jeśli kiedykolwiek krępowałeś się dyktować wrażliwą scenę — rozdział wspomnień, poufny wywiad, kluczowy zwrot akcji, którego nie chcesz pokazać żadnemu zespołowi ML w Google — to jest wersja, w której można się tym nie przejmować.

Mobilny workflow

Przycisk mikrofonu działa w mobilnym Chrome i Safari. Mój prawdziwy workflow, bo pies sam się nie wyprowadzi:

S24 Ultra w kieszeni, słuchawki w uszach, smycz w lewej ręce.
Otwieram mimicreader.ai/app, idę do rozdziału, nad którym pracuję.
Klikam mikrofon (duża czerwona kropka na dole paska edytora — trudno przeoczyć).
Mówię. Całe akapity. Całe sceny. Całe rozdziały, jeśli poranek się udał.
Klikam stop. Czekam dziesięć sekund. Transkrypt pojawia się w tekście.
Idę dalej. Powtarzam dla następnej sceny.

Whisper Large V3 Turbo jest szybki. Trzyminutowe dyktando transkrybuje się w okolicach ośmiu sekund na naszej 3090. Zanim odłożę telefon do kieszeni i popatrzę, jak pies obwąchuje latarnię, tekst jest w rozdziale.

Koszt baterii praktycznie żaden, bo żaden model on-device nie pracuje — telefon tylko nagrywa, a nagrywanie zużywa prawie nic. Jest pewien koszt transferu: trzyminutowy blob Opus to około 1 MB. Tanio na 4G, za darmo na domowym Wi-Fi.

Co się zapisuje (i po co)

Dwie rzeczy, za każdym razem gdy kończysz dyktando:

Transkrypt — wstawiony w miejscu kursora, natychmiast edytowalny. To główny rezultat.
Oryginalne audio — zarchiwizowane jako notatka w twoim koncie, z timestampem nagrania i linkiem z powrotem do rozdziału, do którego było dyktowane.

Archiwum audio ma znaczenie, bo Whisper, nawet z biasem, nie jest doskonały. Może usłyszał „rano kiedy" jako „rano się ciemnia". Może wiatr porwał jedno słowo i zamienił w bełkot. Z oryginalnym audio jeden tap od ciebie w Notach możesz odtworzyć dokładnie tę frazę, usłyszeć, co naprawdę powiedziałeś, i poprawić transkrypt. Bez rekonstrukcji z pamięci trzy dni później.

Widok Notes pozwala też zbierać surowe audio na później. Wydyktuj cztery szkice scen na poniedziałkowym spacerze. W środę wieczorem usiądź z kawą, otwórz zakładkę Notes, odsłuchaj i zdecyduj, które warto zachować. To ten sam wzorzec, którego używa pipeline z notatek głosowych do audiobooka, tylko podpięty bezpośrednio pod edytor zamiast pod przycisk Promote-to-chapter.

Jak to włączyć

Writing Studio jest na razie za flagą funkcji, bo części edytora wciąż polerujemy. Żeby włączyć:

Otwórz /settings w aplikacji MimicReader.
Przewiń do Writing Studio.
Przestaw przełącznik na ON. Zapisz.
Otwórz dowolny rozdział projektu. Pasek edytora ma teraz ikonę mikrofonu obok przycisków formatowania.
Kliknij. Pozwól przeglądarce na dostęp do mikrofonu, kiedy zapyta. Mów.

Tyle. Żadnego rozszerzenia, żadnej instalacji, żadnej osobnej aplikacji. Przycisk mikrofonu jest częścią edytora od chwili, gdy włączysz Writing Studio.

Wypróbuj ten workflow

Jeśli kiedykolwiek otworzyłeś świeży dokument o siódmej rano ze sceną w głowie i straciłeś ją na pierwszym akapicie pisania, to jest workflow, który to naprawia. Głos trzyma iskrę. Dyktando świadome projektu trzyma imiona bohaterów.

Wydyktuj następny rozdział

Za darmo z każdym kontem MimicReader. Bez dodatkowych kredytów, bez kosztu per zapytanie. Tylko edytor, mikrofon i imiona, które już sam wpisałeś.

Zacznij za darmo

Napisz powieść głosem: dyktando, które zna twoich bohaterów

Moment, w którym dyktando zwykle pęka

Dlaczego typowe dyktanda zawodzą piszących

Jak działa dyktando w MimicReaderze

Audio zostaje u nas

Mobilny workflow

Co się zapisuje (i po co)

Jak to włączyć

Wypróbuj ten workflow

Wydyktuj następny rozdział

Co dalej

Moment, w którym dyktando zwykle pęka

Dlaczego typowe dyktanda zawodzą piszących

Jak działa dyktando w MimicReaderze

Audio zostaje u nas

Mobilny workflow

Co się zapisuje (i po co)

Jak to włączyć

Wypróbuj ten workflow

Wydyktuj następny rozdział

Co dalej

Czytaj dalej

Od notatek głosowych do gotowego audiobooka: pełny 4-etapowy pipeline

Napisz powieść i wygeneruj audiobook — wszystko w jednym miejscu

Self-publishing audiobooka