El momento en que el dictado suele fallar
El martes pasado por la mañana paseaba al perro pensando una escena. Dos personajes, Ezra y Lyra, discutiendo en un sótano medio inundado sobre si el río había cambiado de cauce a propósito. Buena escena. De las que llegan enteras y desaparecen en el momento en que te sientas al teclado.
Así que hice lo que hace cualquier escritor con un móvil en el bolsillo. Abrí una app de dictado y empecé a hablar. Tres minutos después tenía la escena. Cinco minutos después tenía la transcripción. Cada «Ezra» se había convertido en «Israel». Cada «Lyra» se había convertido en «Lila». El sótano ahora era «el sotana», y el río se había vuelto «el rio» mal acentuado. Media hora de buscar y reemplazar después, la escena estaba en la página, pero la chispa se había ido.
Esta es la experiencia universal de escribir ficción por voz. Los modelos genéricos de dictado nunca han leído tu libro. Ni siquiera han visto tu lista de personajes. Adivinan los nombres propios a partir de una tabla de frecuencia de artículos de prensa, y por eso los nombres poco comunes — justo los que usa la ficción — acaban reescritos como nombres comunes. Ezra como Israel. Lyra como Lila. Saoirse como «Sersha». Caitlyn como «Caitlin» (o algo peor).
La solución es estructural. El modelo de dictado tiene que saber algo sobre tu proyecto antes de empezar a transcribir. El editor del Writing Studio de MimicReader hace exactamente eso.
Por qué el dictado típico falla a los novelistas
Repaso rápido de las alternativas, calificadas con honestidad:
- Google Web Speech / dictado de Chrome — rápido, gratis, funciona en el navegador. No sabe nada de tu manuscrito. Sustituye cualquier palabra inusual por la palabra común más cercana. Deja de escuchar tras ~60 segundos de silencio. El audio se manda a Google.
- Dictado de Apple (iOS) — desde iOS 17 hay un modelo on-device algo mejor, pero el corpus sigue siendo inglés general. Puedes añadir algunas «sustituciones de texto», pero eso no condiciona al modelo, solo post-procesa cadenas concretas.
- Otter.ai — pensado para reuniones. Excelente identificando interlocutores en un Zoom. Inútil para saber que tu protagonista se llama Soren y no «soaring».
- Dragon Naturally Speaking — el viejo rey. Puedes entrenar vocabularios propios, pero el flujo es engorroso, la licencia cuesta cientos de libras y la versión móvil cojea.
- Whisper puro (el modelo open source) — el motor real de transcripción detrás de la mayoría de herramientas modernas. Excelente, pero solo tan bueno como el prompt que le des. Sin configuración, cero contexto de novela.
El patrón: ninguna de estas herramientas conoce tu mundo. No puede, porque ninguna está dentro de tu manuscrito. Son herramientas de propósito general atornilladas a un trabajo concreto.
Cómo funciona el dictado por voz de MimicReader
El editor del Writing Studio está a un clic de tu lista de personajes, de tu sinopsis y del capítulo que estás editando. Cuando pulsas el botón del micrófono, esto pasa entre bastidores:
- Tu navegador graba audio en local (API MediaRecorder del navegador, sin streaming).
- Cuando paras la grabación, el blob de audio sube a la GPU de MimicReader por HTTPS.
- El backend recupera los metadatos de tu proyecto — cada personaje nombrado, la sinopsis, el título provisional, los nombres clave de lugares.
- Esos nombres se formatean en el
initial_promptde Whisper — una cadena corta de contexto que Whisper usa para condicionar su decodificador. «El siguiente audio es de una novela con Ezra, Lyra, Saoirse… ambientada en la ciudad medio inundada de Veridia…» - Whisper Large V3 Turbo transcribe el audio en nuestra RTX 3090. El prompt lo orienta hacia tus nombres propios — Ezra sigue siendo Ezra.
- La transcripción se inserta en la posición del cursor en el editor de capítulos.
- El audio original se guarda como nota en tu cuenta para que puedas volver a escucharlo si Whisper se equivocó con alguna palabra y quieres corregirlo desde la fuente.
Ese es el truco. Whisper soporta initial_prompt desde el primer día, pero ninguna herramienta de dictado para el consumidor lo conecta automáticamente a un manuscrito. Nosotros sí, porque el manuscrito está justo ahí.
Ezra Vance, Lyra Ó Dálaigh y Saoirse Quinn, esas son las grafías exactas que Whisper va a producir. Sin autocorrección a «Israel», «Lila» o «Sersha». Tus personajes conservan su nombre.
Tu audio se queda aquí
Esta parte importa más de lo que la gente cree. Las herramientas de dictado tienen que hacer algo con tu voz. Los valores por defecto no siempre son amables.
- Google Web Speech manda el audio a los servidores de Google. Sujeto a para qué lo usen y a lo que acaben negociando los abogados de la UE y de Reino Unido sobre datos de entrenamiento.
- Otter, Rev, Trint almacenan tu audio en su nube de forma indefinida por defecto. Puedes borrarlo a mano. Entrenan con datos agregados y anonimizados — los términos varían por tarifa.
- Dictado de Apple se queda en el dispositivo para frases cortas, pero el dictado mejorado puede llamar a casa.
MimicReader es diferente por arquitectura, no por promesa:
- El audio se envía a nuestra GPU (una RTX 3090 en un armario de servidor a las afueras de Glasgow), no a OpenAI, ni a Google, ni a ningún tercero.
- La transcripción corre sobre un Whisper local que alojamos nosotros. No hay clave API a ningún servicio externo de transcripción. No hay tercero.
- El audio se almacena como nota en tu cuenta. Solo tú puedes escucharlo. Puedes borrarlo desde la pestaña Notas en cualquier momento. Eliminar la cuenta (artículo 17 del RGPD) también lo borra.
- No entrenamos ningún modelo con tu audio ni con tu manuscrito. Punto.
Si alguna vez te incomodó dictar una escena delicada — un capítulo de memorias, una entrevista confidencial, el giro climático que no quieres que vea ningún equipo de ML de Google — esta es la versión en la que puedes olvidarte del tema.
El flujo móvil
El botón del micrófono funciona en Chrome y Safari móviles. El flujo que uso de verdad, porque el perro no va a pasearse solo:
- S24 Ultra en el bolsillo, auriculares puestos, correa del perro en la mano izquierda.
- Abro mimicreader.ai/app, voy al capítulo en el que estoy trabajando.
- Pulso el micrófono (un punto rojo grande en la parte baja de la barra del editor — difícil de no ver).
- Hablo. Párrafos enteros. Escenas enteras. Capítulos enteros si la mañana se da bien.
- Pulso stop. Espero diez segundos. La transcripción aparece en línea.
- Sigo andando. Repito para la siguiente escena.
Whisper Large V3 Turbo es rápido. Un dictado de tres minutos se transcribe en torno a ocho segundos en nuestra 3090. Para cuando vuelvo a meter el móvil en el bolsillo y veo al perro olfatear una farola, el texto ya está en el capítulo.
El coste en batería es prácticamente inexistente, porque no corre ningún modelo en el dispositivo — el móvil solo graba, y grabar gasta casi nada. Sí hay un coste de red: un blob Opus de tres minutos pesa alrededor de 1 MB. Barato en 4G, gratis en el wifi de casa.
Qué se guarda (y por qué)
Dos cosas, cada vez que terminas un dictado:
- La transcripción — insertada en la posición del cursor, editable al instante. Es el resultado principal.
- El audio original — archivado como nota en tu cuenta, con la marca de tiempo de la grabación y un enlace de vuelta al capítulo al que se dictó.
El archivo de audio importa porque Whisper, incluso con contexto, no es perfecto. Quizás oyó «la mañana en que yo» como «la mañana de aquí». Quizás el viento se llevó una palabra y la convirtió en ruido. Con el audio original a un toque en Notas, puedes reproducir la frase exacta, oír lo que realmente dijiste y arreglar la transcripción. Sin reconstruir de memoria tres días después.
La vista Notas también te deja acumular audio en bruto para más tarde. Dicta cuatro bocetos de escena en el paseo del lunes. El miércoles por la tarde, siéntate con un café, abre la pestaña Notas, escucha y decide cuáles merecen quedarse. Es el mismo patrón que usa el pipeline de notas de voz a audiolibro, solo que enganchado directamente al editor en lugar de a un botón Promover a capítulo.
Cómo activarlo
Writing Studio está, de momento, tras una feature flag, porque seguimos puliendo partes del editor. Para activarlo:
- Abre /settings en la app de MimicReader.
- Baja hasta Writing Studio.
- Activa el interruptor. Guarda.
- Abre cualquier capítulo del proyecto. La barra del editor tiene ahora un icono de micrófono junto a los botones de formato.
- Púlsalo. Da permiso al navegador para el micrófono cuando lo pida. Habla.
Ya está. Sin extensión, sin instalación, sin app aparte. El botón del micrófono forma parte del editor desde el momento en que Writing Studio queda activado.
Prueba el flujo
Si alguna vez has abierto un documento en blanco a las siete de la mañana con una escena en la cabeza y la has perdido en el primer párrafo escrito, este es el flujo que lo arregla. La voz mantiene la chispa. El dictado consciente del proyecto mantiene los nombres de tus personajes.
Dicta tu próximo capítulo
Gratis con cualquier cuenta de MimicReader. Sin créditos adicionales, sin coste por petición. Solo el editor, el micrófono y los nombres que ya escribiste.
Empezar gratis