Der Moment, in dem Diktat normalerweise scheitert
Letzten Dienstagmorgen war ich mit dem Hund unterwegs und habe eine Szene im Kopf zurechtgelegt. Zwei Figuren, Ezra und Lyra, streiten in einem halb überfluteten Keller darüber, ob der Fluss seinen Lauf absichtlich geändert hat. Gute Szene. Eine von der Sorte, die als Ganzes ankommt und in der Sekunde verschwindet, in der man sich an die Tastatur setzt.
Also habe ich getan, was jede schreibende Person mit Handy in der Tasche tut. Eine Diktier-App aufgemacht und losgesprochen. Drei Minuten später hatte ich die Szene. Fünf Minuten später hatte ich das Transkript. Jedes „Ezra" war zu „Israel" geworden. Jedes „Lyra" war zu „Lila" geworden. Der Keller war jetzt „die Bay", und aus dem Fluss war „der Reefer" geworden. Eine halbe Stunde Suchen und Ersetzen später war die Szene auf der Seite, aber der Funke war weg.
Das ist die universelle Erfahrung, Belletristik per Stimme zu schreiben. Generische Diktatmodelle haben dein Buch nie gelesen. Sie haben nicht einmal deine Figurenliste gesehen. Sie raten Eigennamen aus einer Häufigkeitstabelle von Nachrichtenartikeln, weshalb ungewöhnliche Namen — genau die Namen, die Belletristik gern verwendet — in häufige umgeschrieben werden. Ezra zu Israel. Lyra zu Lila. Saoirse zu „Sersha". Caitlyn zu „Caitlin" (oder Schlimmerem).
Die Lösung ist strukturell. Das Diktatmodell muss von deinem Projekt wissen, bevor es zu transkribieren beginnt. Genau das macht der Editor des Writing Studio in MimicReader.
Warum übliches Diktat bei Romanautor:innen scheitert
Kurzer ehrlicher Durchgang durch die Alternativen:
- Google Web Speech / Chrome-Diktat — schnell, kostenlos, läuft im Browser. Weiß null über dein Manuskript. Ersetzt alles Ungewöhnliche durch das nächstgelegene gängige Wort. Hört nach ~60 Sekunden Stille auf zuzuhören. Audio geht an Google.
- Apple-Diktat (iOS) — seit iOS 17 ein etwas besseres On-Device-Modell, aber das Korpus ist immer noch allgemeines Englisch. Du kannst ein paar „Textersetzungen" hinzufügen, das beeinflusst aber nicht das Modell, sondern nur bestimmte Strings im Nachhinein.
- Otter.ai — für Meetings gebaut. Toll, um Sprecher:innen im Zoom-Call zu identifizieren. Nutzlos, wenn es darum geht zu wissen, dass deine Hauptfigur Soren heißt und nicht „soaring".
- Dragon Naturally Speaking — der alte König. Eigenes Vokabular trainierbar, aber der Workflow ist umständlich, die Lizenz kostet Hunderte Pfund, und mobil sieht es düster aus.
- Pures Whisper (das Open-Source-Modell) — die eigentliche Transkriptions-Engine hinter den meisten modernen Tools. Hervorragend, aber nur so gut wie der Prompt, den du fütterst. Out of the box: null Roman-Kontext.
Das Muster: Keines dieser Werkzeuge kennt deine Welt. Kann es auch nicht, weil keines im Manuskript steckt. Es sind Allzweckwerkzeuge, die nachträglich an eine spezifische Arbeit geschraubt werden.
Wie MimicReaders Spracheingabe funktioniert
Der Editor des Writing Studio ist einen Klick von deiner Figurenliste, deinem Klappentext und dem Kapitel entfernt, an dem du gerade arbeitest. Wenn du auf den Mikrofon-Knopf tippst, läuft hinter den Kulissen Folgendes:
- Dein Browser nimmt Audio lokal auf (Browser-MediaRecorder-API, kein Streaming).
- Wenn du die Aufnahme stoppst, geht der Audio-Blob per HTTPS auf MimicReaders GPU.
- Das Backend zieht die Metadaten deines Projekts — jede benannte Figur, den Klappentext, den Arbeitstitel, zentrale Ortsnamen.
- Diese Namen werden in Whispers
initial_promptformatiert — einen kurzen Kontext-String, mit dem Whisper den Decoder beeinflusst. „Das folgende Audio stammt aus einem Roman mit Ezra, Lyra, Saoirse… angesiedelt in der halb überfluteten Stadt Veridia…" - Whisper Large V3 Turbo transkribiert das Audio auf unserer RTX 3090. Der Prompt lenkt es zu deinen Eigennamen — Ezra bleibt Ezra.
- Das Transkript wird an der Cursorposition im Kapitel-Editor eingefügt.
- Das Original-Audio wird als Notiz in deinem Konto gespeichert, damit du nochmal reinhören kannst, falls Whisper sich verhört hat und du aus der Quelle korrigieren willst.
Das ist der ganze Trick. Whisper unterstützt initial_prompt vom ersten Tag an, aber kein Consumer-Diktattool verdrahtet das automatisch mit einem Manuskript. Wir tun es, weil das Manuskript gleich nebenan liegt.
Ezra Vance, Lyra Ó Dálaigh und Saoirse Quinn enthält, sind genau diese Schreibweisen das, was Whisper ausgibt. Keine Autokorrektur zu „Israel", „Lila" oder „Sersha". Deine Figuren behalten ihre Namen.
Dein Audio bleibt hier
Dieser Teil ist wichtiger, als die meisten denken. Diktiertools müssen irgendetwas mit deiner Stimme tun. Die Standardeinstellungen sind nicht immer freundlich.
- Google Web Speech schickt Audio an Googles Server. Unterliegt dem, wofür sie es nutzen, und dem, was die Anwaltsteams in EU und UK irgendwann zu Trainingsdaten verhandeln.
- Otter, Rev, Trint speichern dein Audio standardmäßig unbefristet in ihrer Cloud. Manuell löschen geht. Trainiert wird auf aggregierten, pseudonymisierten Daten — Bedingungen je nach Tarif.
- Apple-Diktat bleibt für kurze Äußerungen auf dem Gerät, das erweiterte Diktat kann aber nach Hause telefonieren.
MimicReader ist anders — von der Architektur her, nicht aus Versprechen:
- Audio geht auf unsere GPU (eine RTX 3090 in einem Serverschrank außerhalb von Glasgow), nicht zu OpenAI, Google oder einem Drittanbieter.
- Die Transkription läuft auf einem lokalen Whisper-Modell, das wir selbst hosten. Es gibt keinen API-Key zu irgendeinem externen Transkriptionsdienst. Es gibt keinen Dritten.
- Das Audio wird als Notiz in deinem Konto gespeichert. Nur du kannst es anhören. Im Notes-Tab löschst du es jederzeit. Eine Kontolöschung (DSGVO Art. 17) räumt es ebenfalls weg.
- Wir trainieren kein Modell auf deinem Audio oder deinem Manuskript. Punkt.
Wenn dir je unwohl dabei war, eine heikle Szene zu diktieren — ein Memoir-Kapitel, ein vertrauliches Interview, die entscheidende Wendung, die kein Google-ML-Team je sehen soll — dann ist das die Version, bei der du dir darüber keine Gedanken machen musst.
Der Mobile-Workflow
Der Mikrofon-Knopf funktioniert in mobilem Chrome und Safari. Mein tatsächlicher Workflow, weil der Hund sich nicht selbst Gassi führt:
- S24 Ultra in der Hosentasche, Kopfhörer im Ohr, Hundeleine in der linken Hand.
- mimicreader.ai/app öffnen, zum Kapitel navigieren, an dem ich arbeite.
- Aufs Mikrofon tippen (ein großer roter Punkt am unteren Rand der Editor-Leiste — kaum zu übersehen).
- Reden. Ganze Absätze. Ganze Szenen. Ganze Kapitel, wenn der Morgen gut läuft.
- Stop drücken. Zehn Sekunden warten. Transkript erscheint inline.
- Weitergehen. Für die nächste Szene wiederholen.
Whisper Large V3 Turbo ist schnell. Ein drei Minuten langes Diktat transkribiert auf unserer 3090 in rund acht Sekunden. Bis ich das Handy wieder einstecke und dem Hund beim Schnüffeln am Laternenpfahl zusehe, ist der Text im Kapitel.
Akku-Kosten praktisch null, weil kein On-Device-Modell läuft — das Telefon nimmt nur auf, und Aufnahme braucht fast nichts. Es gibt geringe Netzkosten: ein dreiminütiger Opus-Blob wiegt etwa 1 MB. Günstig per 4G, kostenlos im Heim-WLAN.
Was gespeichert wird (und warum)
Zwei Dinge, jedes Mal wenn du ein Diktat beendest:
- Das Transkript — an der Cursorposition eingefügt, sofort editierbar. Das ist das Hauptergebnis.
- Das Original-Audio — als Notiz in deinem Konto archiviert, mit Zeitstempel der Aufnahme und Link zurück zum Kapitel, in das hineindiktiert wurde.
Das Audioarchiv ist deshalb wichtig, weil Whisper selbst mit Bias nicht perfekt ist. Vielleicht hat es „der Morgen, an dem ich" als „der mahnende Wetter" gehört. Vielleicht hat der Wind ein Wort gepackt und in Unsinn verwandelt. Mit dem Original-Audio einen Tipp entfernt in den Notes kannst du genau diese Stelle abspielen, hören, was du wirklich gesagt hast, und das Transkript korrigieren. Kein Rekonstruieren aus dem Gedächtnis drei Tage später.
Die Notes-Ansicht erlaubt es dir auch, Roh-Audio für später aufzustapeln. Diktiere am Montagsspaziergang vier Szenenskizzen. Am Mittwochabend setzt du dich mit einem Kaffee hin, öffnest den Notes-Tab, hörst rein und entscheidest, welche es wert sind. Es ist dasselbe Muster wie bei der Pipeline von Sprachnotiz zum Hörbuch, nur direkt an den Editor gebunden statt an einen „Zu Kapitel befördern"-Button.
So aktivierst du es
Writing Studio steckt aktuell hinter einem Feature-Flag, weil wir Teile des Editors noch polieren. So schaltest du es ein:
- Öffne /settings in der MimicReader-App.
- Scrolle zu Writing Studio.
- Schalte den Schalter ein. Speichern.
- Öffne ein beliebiges Projekt-Kapitel. Die Editor-Leiste hat jetzt ein Mikrofon-Icon neben den Formatierungs-Buttons.
- Tippe darauf. Erlaube dem Browser den Mikrofonzugriff, wenn er fragt. Sprich.
Das war's. Keine Erweiterung, keine Installation, keine separate App. Der Mikrofon-Knopf ist Teil des Editors, sobald Writing Studio aktiv ist.
Probier den Workflow aus
Wenn du je um sieben Uhr morgens ein leeres Dokument geöffnet hast, eine Szene im Kopf, und sie beim ersten Absatz Tippen verloren hast — das ist der Workflow, der das behebt. Stimme hält den Funken. Projektbewusstes Diktat hält die Namen deiner Figuren.
Diktier dein nächstes Kapitel
Kostenlos mit jedem MimicReader-Konto. Keine Extra-Credits, keine Kosten pro Anfrage. Nur der Editor, das Mikrofon und die Namen, die du selbst aufgeschrieben hast.
Kostenlos starten