El momento en que el dictado suele fallar

El martes pasado por la mañana paseaba al perro pensando una escena. Dos personajes, Ezra y Lyra, discutiendo en un sótano medio inundado sobre si el río había cambiado de cauce a propósito. Buena escena. De las que llegan enteras y desaparecen en el momento en que te sientas al teclado.

Así que hice lo que hace cualquier escritor con un móvil en el bolsillo. Abrí una app de dictado y empecé a hablar. Tres minutos después tenía la escena. Cinco minutos después tenía la transcripción. Cada «Ezra» se había convertido en «Israel». Cada «Lyra» se había convertido en «Lila». El sótano ahora era «el sotana», y el río se había vuelto «el rio» mal acentuado. Media hora de buscar y reemplazar después, la escena estaba en la página, pero la chispa se había ido.

Esta es la experiencia universal de escribir ficción por voz. Los modelos genéricos de dictado nunca han leído tu libro. Ni siquiera han visto tu lista de personajes. Adivinan los nombres propios a partir de una tabla de frecuencia de artículos de prensa, y por eso los nombres poco comunes — justo los que usa la ficción — acaban reescritos como nombres comunes. Ezra como Israel. Lyra como Lila. Saoirse como «Sersha». Caitlyn como «Caitlin» (o algo peor).

La solución es estructural. El modelo de dictado tiene que saber algo sobre tu proyecto antes de empezar a transcribir. El editor del Writing Studio de MimicReader hace exactamente eso.

Por qué el dictado típico falla a los novelistas

Repaso rápido de las alternativas, calificadas con honestidad:

El patrón: ninguna de estas herramientas conoce tu mundo. No puede, porque ninguna está dentro de tu manuscrito. Son herramientas de propósito general atornilladas a un trabajo concreto.

Cómo funciona el dictado por voz de MimicReader

El editor del Writing Studio está a un clic de tu lista de personajes, de tu sinopsis y del capítulo que estás editando. Cuando pulsas el botón del micrófono, esto pasa entre bastidores:

  1. Tu navegador graba audio en local (API MediaRecorder del navegador, sin streaming).
  2. Cuando paras la grabación, el blob de audio sube a la GPU de MimicReader por HTTPS.
  3. El backend recupera los metadatos de tu proyecto — cada personaje nombrado, la sinopsis, el título provisional, los nombres clave de lugares.
  4. Esos nombres se formatean en el initial_prompt de Whisper — una cadena corta de contexto que Whisper usa para condicionar su decodificador. «El siguiente audio es de una novela con Ezra, Lyra, Saoirse… ambientada en la ciudad medio inundada de Veridia…»
  5. Whisper Large V3 Turbo transcribe el audio en nuestra RTX 3090. El prompt lo orienta hacia tus nombres propios — Ezra sigue siendo Ezra.
  6. La transcripción se inserta en la posición del cursor en el editor de capítulos.
  7. El audio original se guarda como nota en tu cuenta para que puedas volver a escucharlo si Whisper se equivocó con alguna palabra y quieres corregirlo desde la fuente.

Ese es el truco. Whisper soporta initial_prompt desde el primer día, pero ninguna herramienta de dictado para el consumidor lo conecta automáticamente a un manuscrito. Nosotros sí, porque el manuscrito está justo ahí.

Qué significa concretamente «consciente del proyecto»: si tu lista de personajes contiene Ezra Vance, Lyra Ó Dálaigh y Saoirse Quinn, esas son las grafías exactas que Whisper va a producir. Sin autocorrección a «Israel», «Lila» o «Sersha». Tus personajes conservan su nombre.

Tu audio se queda aquí

Esta parte importa más de lo que la gente cree. Las herramientas de dictado tienen que hacer algo con tu voz. Los valores por defecto no siempre son amables.

MimicReader es diferente por arquitectura, no por promesa:

Si alguna vez te incomodó dictar una escena delicada — un capítulo de memorias, una entrevista confidencial, el giro climático que no quieres que vea ningún equipo de ML de Google — esta es la versión en la que puedes olvidarte del tema.

El flujo móvil

El botón del micrófono funciona en Chrome y Safari móviles. El flujo que uso de verdad, porque el perro no va a pasearse solo:

  1. S24 Ultra en el bolsillo, auriculares puestos, correa del perro en la mano izquierda.
  2. Abro mimicreader.ai/app, voy al capítulo en el que estoy trabajando.
  3. Pulso el micrófono (un punto rojo grande en la parte baja de la barra del editor — difícil de no ver).
  4. Hablo. Párrafos enteros. Escenas enteras. Capítulos enteros si la mañana se da bien.
  5. Pulso stop. Espero diez segundos. La transcripción aparece en línea.
  6. Sigo andando. Repito para la siguiente escena.

Whisper Large V3 Turbo es rápido. Un dictado de tres minutos se transcribe en torno a ocho segundos en nuestra 3090. Para cuando vuelvo a meter el móvil en el bolsillo y veo al perro olfatear una farola, el texto ya está en el capítulo.

El coste en batería es prácticamente inexistente, porque no corre ningún modelo en el dispositivo — el móvil solo graba, y grabar gasta casi nada. Sí hay un coste de red: un blob Opus de tres minutos pesa alrededor de 1 MB. Barato en 4G, gratis en el wifi de casa.

Qué se guarda (y por qué)

Dos cosas, cada vez que terminas un dictado:

  1. La transcripción — insertada en la posición del cursor, editable al instante. Es el resultado principal.
  2. El audio original — archivado como nota en tu cuenta, con la marca de tiempo de la grabación y un enlace de vuelta al capítulo al que se dictó.

El archivo de audio importa porque Whisper, incluso con contexto, no es perfecto. Quizás oyó «la mañana en que yo» como «la mañana de aquí». Quizás el viento se llevó una palabra y la convirtió en ruido. Con el audio original a un toque en Notas, puedes reproducir la frase exacta, oír lo que realmente dijiste y arreglar la transcripción. Sin reconstruir de memoria tres días después.

La vista Notas también te deja acumular audio en bruto para más tarde. Dicta cuatro bocetos de escena en el paseo del lunes. El miércoles por la tarde, siéntate con un café, abre la pestaña Notas, escucha y decide cuáles merecen quedarse. Es el mismo patrón que usa el pipeline de notas de voz a audiolibro, solo que enganchado directamente al editor en lugar de a un botón Promover a capítulo.

Cómo activarlo

Writing Studio está, de momento, tras una feature flag, porque seguimos puliendo partes del editor. Para activarlo:

  1. Abre /settings en la app de MimicReader.
  2. Baja hasta Writing Studio.
  3. Activa el interruptor. Guarda.
  4. Abre cualquier capítulo del proyecto. La barra del editor tiene ahora un icono de micrófono junto a los botones de formato.
  5. Púlsalo. Da permiso al navegador para el micrófono cuando lo pida. Habla.

Ya está. Sin extensión, sin instalación, sin app aparte. El botón del micrófono forma parte del editor desde el momento en que Writing Studio queda activado.

Prueba el flujo

Si alguna vez has abierto un documento en blanco a las siete de la mañana con una escena en la cabeza y la has perdido en el primer párrafo escrito, este es el flujo que lo arregla. La voz mantiene la chispa. El dictado consciente del proyecto mantiene los nombres de tus personajes.

Dicta tu próximo capítulo

Gratis con cualquier cuenta de MimicReader. Sin créditos adicionales, sin coste por petición. Solo el editor, el micrófono y los nombres que ya escribiste.

Empezar gratis

Adónde ir ahora