O momento em que o ditado costuma falhar

Na terça passada de manhã eu estava passeando com o cachorro, pensando numa cena. Dois personagens, Ezra e Lyra, discutindo num porão meio inundado sobre se o rio tinha mudado de curso de propósito. Boa cena. Daquelas que chegam inteiras e desaparecem no segundo em que você senta na frente do teclado.

Então fiz o que todo escritor com celular no bolso faz. Abri um app de ditado e comecei a falar. Três minutos depois eu tinha a cena. Cinco minutos depois eu tinha a transcrição. Toda ocorrência de «Ezra» tinha virado «Israel». Toda ocorrência de «Lyra» tinha virado «Lila». O porão agora era «o porto», e o rio tinha virado «o riacho» errado. Meia hora de busca-e-substituição depois, a cena estava na página, mas a faísca tinha sumido.

Essa é a experiência universal de escrever ficção por voz. Modelos genéricos de ditado nunca leram o seu livro. Nunca viram nem a sua lista de personagens. Eles chutam substantivos próprios a partir de uma tabela de frequência de artigos de jornal, e é por isso que nomes incomuns — exatamente os nomes que a ficção usa — viram nomes comuns. Ezra vira Israel. Lyra vira Lila. Saoirse vira «Sersha». Caitlyn vira «Caitlin» (ou pior).

A solução é estrutural. O modelo de ditado precisa saber sobre o seu projeto antes de começar a transcrever. O editor do Writing Studio do MimicReader faz exatamente isso.

Por que o ditado típico falha para romancistas

Tour rápido pelas alternativas, com nota honesta:

O padrão: nenhuma dessas ferramentas conhece o seu mundo. Não pode, porque nenhuma está dentro do seu manuscrito. São ferramentas de propósito geral aparafusadas a um trabalho específico.

Como funciona o ditado por voz do MimicReader

O editor do Writing Studio está a um clique da sua lista de personagens, da sinopse e do capítulo que você está editando agora. Quando você toca no botão do microfone, eis o que acontece nos bastidores:

  1. Seu navegador grava áudio localmente (API MediaRecorder do navegador, sem streaming).
  2. Quando você para a gravação, o blob de áudio sobe para a GPU do MimicReader via HTTPS.
  3. O backend puxa os metadados do seu projeto — cada personagem nomeado, a sinopse, o título provisório, os principais nomes de lugares.
  4. Esses nomes são formatados no initial_prompt do Whisper — uma string curta de contexto que o Whisper usa para enviesar o decodificador. «O áudio a seguir é de um romance com Ezra, Lyra, Saoirse… ambientado na cidade meio inundada de Veridia…»
  5. O Whisper Large V3 Turbo transcreve o áudio na nossa RTX 3090. O prompt o orienta na direção dos seus nomes próprios — Ezra continua Ezra.
  6. A transcrição é inserida na posição do cursor no editor de capítulos.
  7. O áudio original fica salvo como nota na sua conta para você ouvir de novo se o Whisper entendeu errado alguma palavra e você quiser corrigir a partir da fonte.

É esse o truque. O Whisper suporta initial_prompt desde o primeiro dia, mas nenhuma ferramenta de ditado para o usuário final conecta isso a um manuscrito automaticamente. A gente conecta, porque o manuscrito está ali do lado.

O que «com contexto do projeto» significa na prática: se a sua lista de personagens contém Ezra Vance, Lyra Ó Dálaigh e Saoirse Quinn, são exatamente essas grafias que o Whisper vai produzir. Sem autocorreção para «Israel», «Lila» ou «Sersha». Você fica com os nomes dos seus personagens.

Seu áudio fica aqui

Essa parte importa mais do que as pessoas imaginam. Ferramentas de ditado precisam fazer alguma coisa com a sua voz. Os padrões nem sempre são amigáveis.

O MimicReader é diferente por arquitetura, não por promessa:

Se você já se incomodou em ditar uma cena sensível — um capítulo de memórias, uma entrevista confidencial, a virada climática do enredo que você não quer que nenhuma equipe de ML do Google jamais veja — essa é a versão em que dá para não se preocupar com isso.

O fluxo no celular

O botão de microfone funciona no Chrome e no Safari mobile. O fluxo que eu uso de verdade, já que o cachorro não vai se passear sozinho:

  1. S24 Ultra no bolso, fones nos ouvidos, guia do cachorro na mão esquerda.
  2. Abro mimicreader.ai/app, vou para o capítulo em que estou trabalhando.
  3. Toco no microfone (um ponto vermelho grande no fim da barra do editor — difícil de não ver).
  4. Falo. Parágrafos inteiros. Cenas inteiras. Capítulos inteiros se a manhã rende.
  5. Toco em parar. Espero dez segundos. A transcrição aparece direto no texto.
  6. Sigo andando. Repito para a próxima cena.

O Whisper Large V3 Turbo é rápido. Um ditado de três minutos transcreve em torno de oito segundos na nossa 3090. Quando coloco o celular de volta no bolso e olho o cachorro cheirando um poste, o texto já está no capítulo.

Custo de bateria praticamente zero, porque nenhum modelo roda no aparelho — o celular só grava, e gravar consome quase nada. Há um custo de rede: um blob Opus de três minutos pesa por volta de 1 MB. Barato no 4G, de graça no wi-fi de casa.

O que é salvo (e por quê)

Duas coisas, toda vez que você termina um ditado:

  1. A transcrição — inserida na posição do cursor, editável na hora. É o resultado principal.
  2. O áudio original — arquivado como nota na sua conta, com o timestamp da gravação e um link de volta para o capítulo em que foi ditado.

O arquivo de áudio importa porque o Whisper, mesmo com viés, não é perfeito. Talvez ele tenha ouvido «a manhã em que eu» como «a manha de quê». Talvez o vento tenha levado uma palavra e transformado em ruído. Com o áudio original a um toque na aba Notas, você pode reproduzir a frase exata, ouvir o que disse de verdade e arrumar a transcrição. Sem reconstruir de memória três dias depois.

A visão de Notas também deixa você acumular áudio bruto para mais tarde. Dite quatro esboços de cena no passeio de segunda. Na noite de quarta, senta com um café, abre a aba Notas, escuta e decide quais vale a pena guardar. É o mesmo padrão usado pelo pipeline de notas de voz para audiolivro, só que ligado direto ao editor em vez de a um botão Promover-para-capítulo.

Como habilitar

Writing Studio está, por enquanto, atrás de uma feature flag, porque ainda estamos polindo partes do editor. Para ligar:

  1. Abra /settings no app do MimicReader.
  2. Role até Writing Studio.
  3. Ligue o botão. Salve.
  4. Abra qualquer capítulo do projeto. A barra do editor agora tem um ícone de microfone ao lado dos botões de formatação.
  5. Toque. Permita o acesso ao microfone quando o navegador pedir. Fale.

Pronto. Sem extensão, sem instalação, sem app à parte. O botão de microfone faz parte do editor a partir do momento em que o Writing Studio fica ligado.

Experimente o fluxo

Se você já abriu um documento em branco às sete da manhã com uma cena na cabeça e perdeu tudo no primeiro parágrafo que digitou, esse é o fluxo que resolve. A voz mantém a faísca. O ditado com contexto do projeto mantém os nomes dos seus personagens.

Dite o seu próximo capítulo

Grátis com qualquer conta MimicReader. Sem créditos extras, sem custo por requisição. Só o editor, o microfone e os nomes que você mesmo já anotou.

Começar grátis

Para onde ir agora