Le moment où la dictée échoue d'habitude

Mardi dernier au matin, je promenais le chien et je construisais une scène dans ma tête. Deux personnages, Ezra et Lyra, qui se disputent dans un sous-sol à demi inondé pour savoir si la rivière a changé de cours volontairement. Bonne scène. Du genre qui arrive d'un bloc et qui disparaît au moment où on s'assoit devant un clavier.

Alors j'ai fait ce que fait tout écrivain avec un téléphone dans la poche. J'ai ouvert une app de dictée et j'ai commencé à parler. Trois minutes plus tard, j'avais la scène. Cinq minutes plus tard, j'avais la transcription. Chaque « Ezra » avait été transformé en « Israel ». Chaque « Lyra » avait été transformée en « Lila ». Le sous-sol était devenu « la bay », et la rivière s'était changée en « le reefer ». Une demi-heure de chercher-remplacer plus tard, la scène était sur la page, mais l'étincelle avait disparu.

C'est l'expérience universelle de l'écriture de fiction à la voix. Les modèles de dictée génériques n'ont jamais lu ton livre. Ils n'ont jamais vu ta liste de personnages. Ils devinent les noms propres à partir d'une table de fréquence d'articles de presse, raison pour laquelle les noms peu courants — exactement ceux qu'utilise la fiction — sont réécrits en noms courants. Ezra en Israel. Lyra en Lila. Saoirse en « Sersha ». Caitlyn en « Caitlin » (ou pire).

La solution est structurelle. Le modèle de dictée doit savoir ce qu'est ton projet avant de commencer à transcrire. C'est exactement ce que fait l'éditeur du Writing Studio de MimicReader.

Pourquoi la dictée classique échoue pour les romanciers

Petit tour honnête des alternatives :

Le motif : aucun de ces outils ne connaît ton monde. Il ne le peut pas, parce qu'aucun n'est à l'intérieur de ton manuscrit. Ce sont des outils généralistes boulonnés à un travail spécifique.

Comment fonctionne la dictée vocale de MimicReader

L'éditeur du Writing Studio est à un clic de ta liste de personnages, de ton résumé et du chapitre que tu es en train d'éditer. Quand tu appuies sur le bouton micro, voici ce qui se passe en coulisses :

  1. Ton navigateur enregistre l'audio en local (API MediaRecorder du navigateur, sans streaming).
  2. Quand tu arrêtes l'enregistrement, le blob audio est envoyé en HTTPS vers la GPU de MimicReader.
  3. Le backend récupère les métadonnées de ton projet — chaque personnage nommé, le résumé, le titre de travail, les noms de lieux clés.
  4. Ces noms sont mis en forme dans l'initial_prompt de Whisper — une courte chaîne de contexte que Whisper utilise pour biaiser son décodeur. « L'audio qui suit provient d'un roman mettant en scène Ezra, Lyra, Saoirse… dans la ville à demi inondée de Veridia… »
  5. Whisper Large V3 Turbo transcrit l'audio sur notre RTX 3090. Le prompt l'oriente vers tes noms propres — Ezra reste Ezra.
  6. La transcription est insérée à la position du curseur dans l'éditeur de chapitre.
  7. L'audio original est sauvegardé comme note dans ton compte pour que tu puisses le réécouter si Whisper a mal entendu un mot et que tu veux corriger depuis la source.

C'est toute l'astuce. Whisper supporte initial_prompt depuis le premier jour, mais aucun outil de dictée grand public ne le branche automatiquement à un manuscrit. Nous, si — parce que le manuscrit est juste à côté.

Ce que « conscient du projet » signifie concrètement : si ta liste de personnages contient Ezra Vance, Lyra Ó Dálaigh et Saoirse Quinn, ce sont exactement ces orthographes que Whisper restitue. Aucune autocorrection vers « Israel », « Lila » ou « Sersha ». Tes personnages gardent leur nom.

Ton audio reste ici

Ce point compte plus qu'on ne le croit. Les outils de dictée doivent bien faire quelque chose de ta voix. Les réglages par défaut ne sont pas toujours sympathiques.

MimicReader est différent par architecture, pas par promesse :

Si tu as déjà eu ce malaise à dicter une scène sensible — un chapitre de mémoires, un entretien confidentiel, le retournement final que tu ne veux jamais voir passer entre les mains d'une équipe ML chez Google — c'est la version qui te laisse arrêter de t'en inquiéter.

Le workflow mobile

Le bouton micro fonctionne dans Chrome et Safari mobiles. Le vrai workflow que j'utilise, vu que le chien ne va pas se promener tout seul :

  1. S24 Ultra dans la poche, écouteurs aux oreilles, laisse du chien dans la main gauche.
  2. J'ouvre mimicreader.ai/app, je vais sur le chapitre en cours.
  3. Je tape sur le micro (un gros point rouge en bas de la barre d'outils — difficile à manquer).
  4. Je parle. Paragraphes entiers. Scènes entières. Chapitres entiers si la matinée est bonne.
  5. Je tape sur stop. J'attends dix secondes. La transcription apparaît dans le texte.
  6. Je continue à marcher. Je recommence pour la scène suivante.

Whisper Large V3 Turbo est rapide. Une dictée de trois minutes se transcrit en environ huit secondes sur notre 3090. Le temps que je remette le téléphone dans la poche et que je regarde le chien renifler un lampadaire, le texte est dans le chapitre.

Le coût en batterie est négligeable, parce qu'aucun modèle ne tourne sur l'appareil — le téléphone n'enregistre, rien d'autre, et enregistrer consomme presque rien. Il y a un coût réseau : un blob Opus de trois minutes pèse environ 1 Mo. Pas cher en 4G, gratuit sur le Wi-Fi de la maison.

Ce qui est sauvegardé (et pourquoi)

Deux choses, chaque fois que tu finis une dictée :

  1. La transcription — insérée à la position du curseur, modifiable instantanément. C'est le résultat principal.
  2. L'audio original — archivé comme note dans ton compte, avec l'horodatage de l'enregistrement et un lien retour vers le chapitre dans lequel il a été dicté.

L'archive audio compte parce que Whisper, même avec biais, n'est pas parfait. Peut-être qu'il a entendu « le matin où je » comme « le mâtin où j'y ». Peut-être que le vent a emporté un mot et l'a transformé en bouillie. Avec l'audio original à un tap dans les Notes, tu peux rejouer la phrase exacte, entendre ce que tu as vraiment dit et corriger la transcription. Sans avoir à reconstruire de mémoire trois jours plus tard.

La vue Notes te permet aussi d'empiler de l'audio brut pour plus tard. Dicte quatre esquisses de scène lors de la promenade du lundi. Le mercredi soir, assieds-toi avec un café, ouvre l'onglet Notes, écoute et décide lesquelles valent la peine d'être gardées. C'est le même motif qu'utilise le pipeline de notes vocales vers livre audio, sauf qu'il est branché directement à l'éditeur au lieu d'un bouton « Promouvoir au chapitre ».

Comment l'activer

Writing Studio est pour l'instant derrière un feature flag, parce que des parties de l'éditeur sont encore en peaufinage. Pour l'allumer :

  1. Ouvre /settings dans l'app MimicReader.
  2. Descends jusqu'à Writing Studio.
  3. Bascule l'interrupteur. Enregistre.
  4. Ouvre n'importe quel chapitre du projet. La barre d'outils de l'éditeur a maintenant une icône de micro à côté des boutons de formatage.
  5. Clique dessus. Autorise le micro quand le navigateur demande. Parle.

Voilà. Pas d'extension, pas d'installation, pas d'app à part. Le bouton micro fait partie de l'éditeur dès que Writing Studio est activé.

Essaie le workflow

Si tu as déjà ouvert un document vierge à 7 h du matin avec une scène en tête et que tu l'as perdue au premier paragraphe tapé, c'est le workflow qui corrige ça. La voix garde l'étincelle. La dictée consciente du projet garde les noms de tes personnages.

Dicte ton prochain chapitre

Gratuit avec chaque compte MimicReader. Pas de crédits supplémentaires, pas de coût par requête. Juste l'éditeur, le micro, et les noms que tu as déjà écrits toi-même.

Commencer gratuit

Pour aller plus loin