O momento em que o ditado costuma falhar

Na terça passada de manhã eu estava passeando com o cachorro, pensando numa cena. Dois personagens, Ezra e Lyra, discutindo num porão meio inundado sobre se o rio tinha mudado de curso de propósito. Boa cena. Daquelas que chegam inteiras e desaparecem no segundo em que você senta na frente do teclado.

Então fiz o que todo escritor com celular no bolso faz. Abri um app de ditado e comecei a falar. Três minutos depois eu tinha a cena. Cinco minutos depois eu tinha a transcrição. Toda ocorrência de «Ezra» tinha virado «Israel». Toda ocorrência de «Lyra» tinha virado «Lila». O porão agora era «o porto», e o rio tinha virado «o riacho» errado. Meia hora de busca-e-substituição depois, a cena estava na página, mas a faísca tinha sumido.

Essa é a experiência universal de escrever ficção por voz. Modelos genéricos de ditado nunca leram o seu livro. Nunca viram nem a sua lista de personagens. Eles chutam substantivos próprios a partir de uma tabela de frequência de artigos de jornal, e é por isso que nomes incomuns — exatamente os nomes que a ficção usa — viram nomes comuns. Ezra vira Israel. Lyra vira Lila. Saoirse vira «Sersha». Caitlyn vira «Caitlin» (ou pior).

A solução é estrutural. O modelo de ditado precisa saber sobre o seu projeto antes de começar a transcrever. O editor do Writing Studio do MimicReader faz exatamente isso.

Por que o ditado típico falha para romancistas

Tour rápido pelas alternativas, com nota honesta:

Google Web Speech / ditado do Chrome — rápido, grátis, roda no navegador. Não sabe nada do seu manuscrito. Troca qualquer palavra fora do comum pela palavra comum mais próxima. Para de escutar depois de ~60 segundos de silêncio. O áudio vai para o Google.
Ditado da Apple (iOS) — desde o iOS 17 o modelo on-device melhorou um pouco, mas o corpus continua sendo inglês geral. Você pode adicionar algumas «substituições de texto», mas isso não enviesa o modelo, só pós-processa strings específicas.
Otter.ai — construído para reuniões. Ótimo para identificar quem fala num Zoom. Inútil para saber que o seu protagonista se chama Soren e não «soaring».
Dragon Naturally Speaking — o velho rei. Você pode treinar vocabulário próprio, mas o fluxo é trabalhoso, a licença custa centenas de libras e a história no mobile é fraca.
Whisper puro (o modelo open source) — o motor real de transcrição por trás da maioria das ferramentas modernas. Excelente, mas só tão bom quanto o prompt que você passa. Sem configuração, zero contexto de romance.

O padrão: nenhuma dessas ferramentas conhece o seu mundo. Não pode, porque nenhuma está dentro do seu manuscrito. São ferramentas de propósito geral aparafusadas a um trabalho específico.

Como funciona o ditado por voz do MimicReader

O editor do Writing Studio está a um clique da sua lista de personagens, da sinopse e do capítulo que você está editando agora. Quando você toca no botão do microfone, eis o que acontece nos bastidores:

Seu navegador grava áudio localmente (API MediaRecorder do navegador, sem streaming).
Quando você para a gravação, o blob de áudio sobe para a GPU do MimicReader via HTTPS.
O backend puxa os metadados do seu projeto — cada personagem nomeado, a sinopse, o título provisório, os principais nomes de lugares.
Esses nomes são formatados no initial_prompt do Whisper — uma string curta de contexto que o Whisper usa para enviesar o decodificador. «O áudio a seguir é de um romance com Ezra, Lyra, Saoirse… ambientado na cidade meio inundada de Veridia…»
O Whisper Large V3 Turbo transcreve o áudio na nossa RTX 3090. O prompt o orienta na direção dos seus nomes próprios — Ezra continua Ezra.
A transcrição é inserida na posição do cursor no editor de capítulos.
O áudio original fica salvo como nota na sua conta para você ouvir de novo se o Whisper entendeu errado alguma palavra e você quiser corrigir a partir da fonte.

É esse o truque. O Whisper suporta initial_prompt desde o primeiro dia, mas nenhuma ferramenta de ditado para o usuário final conecta isso a um manuscrito automaticamente. A gente conecta, porque o manuscrito está ali do lado.

        O que «com contexto do projeto» significa na prática: se a sua lista de personagens contém Ezra Vance, Lyra Ó Dálaigh e Saoirse Quinn, são exatamente essas grafias que o Whisper vai produzir. Sem autocorreção para «Israel», «Lila» ou «Sersha». Você fica com os nomes dos seus personagens.
    

Seu áudio fica aqui

Essa parte importa mais do que as pessoas imaginam. Ferramentas de ditado precisam fazer alguma coisa com a sua voz. Os padrões nem sempre são amigáveis.

Google Web Speech envia o áudio para os servidores do Google. Sujeito ao que eles estiverem usando aquilo para fazer, e ao que os advogados da UE e do Reino Unido eventualmente negociarem sobre dados de treinamento.
Otter, Rev, Trint armazenam seu áudio na nuvem deles, indefinidamente por padrão. Você pode apagar na mão. Eles treinam em dados agregados e desidentificados — os termos variam por plano.
Ditado da Apple fica no aparelho para frases curtas, mas o ditado aprimorado pode chamar para casa.

O MimicReader é diferente por arquitetura, não por promessa:

O áudio vai para a nossa GPU (uma RTX 3090 num rack de servidor fora de Glasgow), não para a OpenAI, Google ou qualquer terceiro.
A transcrição roda num Whisper local que a gente hospeda. Não tem chave de API para nenhum serviço externo de transcrição. Não tem terceiro.
O áudio é guardado como nota na sua conta. Só você consegue ouvir. Você pode apagar na aba Notas a qualquer momento. Excluir a conta (LGPD/RGPD artigo 17) apaga tudo também.
Não treinamos nenhum modelo com seu áudio nem com seu manuscrito. Ponto.

Se você já se incomodou em ditar uma cena sensível — um capítulo de memórias, uma entrevista confidencial, a virada climática do enredo que você não quer que nenhuma equipe de ML do Google jamais veja — essa é a versão em que dá para não se preocupar com isso.

O fluxo no celular

O botão de microfone funciona no Chrome e no Safari mobile. O fluxo que eu uso de verdade, já que o cachorro não vai se passear sozinho:

S24 Ultra no bolso, fones nos ouvidos, guia do cachorro na mão esquerda.
Abro mimicreader.ai/app, vou para o capítulo em que estou trabalhando.
Toco no microfone (um ponto vermelho grande no fim da barra do editor — difícil de não ver).
Falo. Parágrafos inteiros. Cenas inteiras. Capítulos inteiros se a manhã rende.
Toco em parar. Espero dez segundos. A transcrição aparece direto no texto.
Sigo andando. Repito para a próxima cena.

O Whisper Large V3 Turbo é rápido. Um ditado de três minutos transcreve em torno de oito segundos na nossa 3090. Quando coloco o celular de volta no bolso e olho o cachorro cheirando um poste, o texto já está no capítulo.

Custo de bateria praticamente zero, porque nenhum modelo roda no aparelho — o celular só grava, e gravar consome quase nada. Há um custo de rede: um blob Opus de três minutos pesa por volta de 1 MB. Barato no 4G, de graça no wi-fi de casa.

O que é salvo (e por quê)

Duas coisas, toda vez que você termina um ditado:

A transcrição — inserida na posição do cursor, editável na hora. É o resultado principal.
O áudio original — arquivado como nota na sua conta, com o timestamp da gravação e um link de volta para o capítulo em que foi ditado.

O arquivo de áudio importa porque o Whisper, mesmo com viés, não é perfeito. Talvez ele tenha ouvido «a manhã em que eu» como «a manha de quê». Talvez o vento tenha levado uma palavra e transformado em ruído. Com o áudio original a um toque na aba Notas, você pode reproduzir a frase exata, ouvir o que disse de verdade e arrumar a transcrição. Sem reconstruir de memória três dias depois.

A visão de Notas também deixa você acumular áudio bruto para mais tarde. Dite quatro esboços de cena no passeio de segunda. Na noite de quarta, senta com um café, abre a aba Notas, escuta e decide quais vale a pena guardar. É o mesmo padrão usado pelo pipeline de notas de voz para audiolivro, só que ligado direto ao editor em vez de a um botão Promover-para-capítulo.

Como habilitar

Writing Studio está, por enquanto, atrás de uma feature flag, porque ainda estamos polindo partes do editor. Para ligar:

Abra /settings no app do MimicReader.
Role até Writing Studio.
Ligue o botão. Salve.
Abra qualquer capítulo do projeto. A barra do editor agora tem um ícone de microfone ao lado dos botões de formatação.
Toque. Permita o acesso ao microfone quando o navegador pedir. Fale.

Pronto. Sem extensão, sem instalação, sem app à parte. O botão de microfone faz parte do editor a partir do momento em que o Writing Studio fica ligado.

Experimente o fluxo

Se você já abriu um documento em branco às sete da manhã com uma cena na cabeça e perdeu tudo no primeiro parágrafo que digitou, esse é o fluxo que resolve. A voz mantém a faísca. O ditado com contexto do projeto mantém os nomes dos seus personagens.

Dite o seu próximo capítulo

Grátis com qualquer conta MimicReader. Sem créditos extras, sem custo por requisição. Só o editor, o microfone e os nomes que você mesmo já anotou.

Começar grátis

Escreva seu romance por voz: ditado que conhece seus personagens

O momento em que o ditado costuma falhar

Por que o ditado típico falha para romancistas

Como funciona o ditado por voz do MimicReader

Seu áudio fica aqui

O fluxo no celular

O que é salvo (e por quê)

Como habilitar

Experimente o fluxo

Dite o seu próximo capítulo

Para onde ir agora

O momento em que o ditado costuma falhar

Por que o ditado típico falha para romancistas

Como funciona o ditado por voz do MimicReader

Seu áudio fica aqui

O fluxo no celular

O que é salvo (e por quê)

Como habilitar

Experimente o fluxo

Dite o seu próximo capítulo

Para onde ir agora

Continue lendo

De notas de voz a audiolivro publicado: o pipeline completo em 4 passos

Escreva seu romance e gere um audiolivro — tudo num lugar só

Autopublicar um audiolivro