Co-piloto de escrita com IA grátis: como modelos locais batem o Sudowrite nos primeiros rascunhos

O momento

São 23h. Você está com 600 palavras no capítulo e travou numa frase que começa com "Ela sabia, do jeito que a gente sabe das coisas em sonho, que…" — e seu cérebro deu branco. Você não quer que uma Bola Mágica escreva o próximo parágrafo. Quer só um empurrão. Algo pra ler e reagir. Um espelhinho que diga: "…que a porta estaria aberta, virasse ela a maçaneta ou não."

Você faz uma pausa de um segundo e meio. O fantasma cinza em itálico aparece inline. Se encaixou, Tab. Se não, Esc — ou só continua digitando, ele some. É essa a interação inteira. É grátis. Roda no nosso hardware. Ninguém do outro lado lê seu rascunho.

Isso é o Writing Studio do MimicReader com o toggle AI co-writer ligado. E o contraste com o que o Sudowrite cobra pela mesma ideia é, sinceramente, constrangedor pro Sudowrite.

O imposto Sudowrite

Sudowrite é um marketing excelente embrulhado em um produto técnico bem magro. A estrutura de preços em meados de 2026:

$19/mês mínimo (cerca de R$ 95) pelo plano "Hobby and Student"
225 000 créditos/mês — parece muito até você descobrir que o Story Engine deles devora isso em algumas sessões
Heavy users compram planos maiores ($29, $59, $129) pra não acabar
Seu texto é enviado pra OpenAI a cada geração — o Sudowrite é só um wrapper

Esse último ponto é maquiado no marketing. Sudowrite não tem modelo próprio. Por baixo, chama a API da OpenAI. Seu manuscrito em andamento — incluindo as cenas pela metade que você teria vergonha de mostrar pro seu editor — vai pros servidores da OpenAI, é processado lá, e a continuação volta. Os termos enterprise da OpenAI dizem que eles não treinam com dados de API, o que tranquiliza se você confia em termos enterprise. (Eles já mudaram duas vezes nesta década.)

O NovelCrafter é a variante um pouco mais barata: $7/mês (cerca de R$ 35) pela assinatura e depois você traz sua própria chave de OpenAI ou Anthropic e paga direto a cada geração. Mesmo fluxo de dados — seu texto continua saindo da plataforma onde você digitou.

O que "modelo local" significa de verdade

O AI co-writer do MimicReader não chama OpenAI. Não chama Anthropic. Bate num modelo da família Llama — especificamente o gemma3:4b — rodando na nossa própria RTX 3090, na nossa sala de servidores na Escócia.

Quando você pausa, o editor manda as últimas ~500 palavras do seu rascunho pra 192.168.20.155:11434 (via túnel WireGuard a partir do VPS), recebe uma continuação de 10-30 palavras de volta e renderiza como texto cinza em itálico inline. O caminho completo:

Seu navegador → VPS do MimicReader (HTTPS via Cloudflare)
VPS → nosso servidor GPU (túnel WireGuard criptografado, rede interna)
O servidor GPU roda Ollama com gemma3:4b, gera a continuação
A continuação volta pelo mesmo caminho
O texto cinza em itálico aparece no seu editor

Nenhum provedor de IA terceiro está envolvido. A OpenAI nunca vê sua frase. A Anthropic nunca vê sua frase. As únicas pessoas que teoricamente poderiam ver seu texto somos nós, e a gente não loga as requisições — elas batem no modelo e o payload some no momento em que a resposta é gerada. (A gente loga que houve uma requisição, pro rate limit. Não loga o que tinha dentro.)

        Por que isso importa: se você escreve ficção de gênero, erótica, uma memória sensível ou qualquer coisa em que o próprio texto é o ativo, cada chamada de API pra um LLM terceiro é um momento em que seu rascunho existe em hardware alheio. Modelo local é a única escolha plenamente sã.
    

Comparação honesta: quando local é ótimo e quando não é

A gente não vai supervalorizar o gemma3:4b. É um modelo de 4 bilhões de parâmetros com pesos abertos. Não é o Claude 4.7. Não é o GPT-5. Eis a matriz honesta:

Tarefa	Local gemma3:4b	Modelo grande na nuvem
Termine esta frase (5-15 palavras)	Excelente	Excelente
Termine este parágrafo (20-40 palavras)	Bom	Excelente
Rascunhar o próximo parágrafo do zero	Decente	Excelente
Rascunhar um capítulo inteiro	Mediano — use o Workshop	Excelente — use o Workshop
Manter consistência de voz por 1000 palavras	Deriva	Deriva menos, não some
Planejar um outline de 50 capítulos	Não use	Use AI Workshop / Claude

O ghost text foi deliberadamente limitado à coluna verde. Ele existe pra aquele momento em que seu cérebro pausa e você quer um trecho de fechamento, não um rascunho de capítulo. Quando quiser rascunhos de capítulo — isso é outro recurso dentro do MimicReader chamado AI Workshop, que usa Claude ou Gemini (pago, seus créditos) para drafting estrutural de alta qualidade. A gente entrega as duas ferramentas e deixa você escolher a certa pra hora certa.

Se você passa a maior parte do dia pedindo pra IA "escrever as próximas 500 palavras", você não quer ghost text — quer Workshop. Se passa a maior parte do dia escrevendo você mesmo e de vez em quando quer um empurrãozinho de fechamento, quer ghost text e nunca vai tocar no Workshop. As duas vêm em toda conta.

Realidade da latência: ~400 ms

Pausa de 1,5 segundo. A requisição dispara. O modelo responde em uns 400 milissegundos. Tempo total entre sua última tecla e o texto cinza aparecendo: pouco menos de 2 segundos. Dá a sensação de que o editor está lendo sua mente com um respiro de atraso.

Pra comparar, APIs na nuvem normalmente rodam em 1-3 segundos de ponta a ponta (mais nos modelos maiores da OpenAI). O comando "Write" do Sudowrite costuma levar 5-15 segundos porque encadeia várias gerações no lado servidor. O ghost text do MimicReader é rápido justamente porque o modelo é pequeno e mora ao lado de quem pede.

Tab aceita. Esc descarta. Você no controle.

A interação é propositalmente mínima:

Tab — aceita a sugestão, o texto cinza vira texto de verdade, o cursor vai pro fim
Esc — descarta, a sugestão some, você continua digitando
Só continuar digitando — a sugestão some automaticamente no momento em que você aperta outra tecla

Nada é inserido automaticamente. A IA nunca modifica seu rascunho sem um Tab explícito. Se você não olhar pro texto cinza e continuar digitando, ele desaparece como se nunca tivesse existido. Muitos escritores ligam o recurso e esquecem que ele está lá, e de vez em quando aceitam uma sugestão quando o editor surpreende com uma boa. Esse é o modo certo de uso.

A gente coloca um rate limit no ghost text de 60 requisições por minuto por usuário, com janela deslizante. Na prática, você consegue pausar e disparar uma sugestão por segundo durante um minuto inteiro antes de bater no teto. Ninguém escreve assim. O limite existe pra barrar bots, não escritores.

Privacidade: o motivo de verdade pra se importar

IA na nuvem está ok pra código, ok pra e-mail, ok pra metade chata do seu trabalho. Não está ok pro texto do qual você ainda não tem certeza.

Especificamente: autores de erótica, memorialistas com parentes ainda vivos no manuscrito, autores de ficção explorando temas pesados (true crime, abuso, vício), profissionais sob NDA, advogados redigindo peças, terapeutas anotando sobre pacientes, qualquer um trabalhando em algo sob embargo, qualquer um escrevendo numa língua com sensibilidades culturais que o filtro de segurança do provedor cloud não entende — pra todos eles, cada chamada de API na nuvem é um pequeno risco que você escolhe correr.

Modelo local é a ausência desse risco. A gente não tá te pedindo pra confiar na política de privacidade da OpenAI. Não tá te pedindo pra confiar nos enterprise terms da Anthropic. Tá te pedindo pra confiar que o modelo rodando na nossa GPU não tem rota de rede saindo da nossa GPU. (Não tem. O processo do Ollama escuta em 192.168.20.155:11434 numa rede privada. O VPS chega lá por túnel WireGuard. Não tem saída da GPU pra internet pública pra tráfego de inferência.)

Por que a gente come o tempo de GPU

Resposta honesta: nos custa uns £0,001 de eletricidade por completion de ghost text com as tarifas do Reino Unido. Com o limite de 60 completions/min/user, mesmo um escritor pesado fazendo quatro horas seguidas com o recurso a todo vapor nos custaria no máximo £1 em energia — e provavelmente também está gerando audiolivros (que é onde mora a nossa receita real) na mesma conta. O ghost text é um recurso que deixa a plataforma mais "grudenta" e mal aparece na nossa planilha de custos. Então a gente desistiu de monetizar e fez ele de graça.

O Sudowrite cobra $19/mês pelo ghost text porque tem que pagar a OpenAI por cada chamada. A margem deles depende da sua assinatura. A gente não paga OpenAI. Paga a conta de luz. A economia é genuinamente diferente — e a gente preferia que você gastasse esses $19 (cerca de R$ 95) num pacote de créditos pra geração de audiolivro de verdade, que é onde mora o custo.

Como ativar

Dentro do app do MimicReader:

Abra Configurações
Role até Writing Studio
Ligue AI co-writer (ghost text)
Abra qualquer projeto e comece a escrever — pause 1,5 segundo quando quiser uma sugestão

Pode desligar a qualquer hora. As configurações são por usuário e persistem entre dispositivos. O recurso fica no mesmo painel das outras preferências do Writing Studio (fonte, tema, pausa default entre capítulos etc.).

Testa o ghost text — ele está lá

Conta grátis, sem cartão, o AI co-writer vem incluso desde o primeiro dia. Igual notas de voz, edição de manuscrito, geração de capa e 1 hora de geração de audiolivro por mês.

Começa a escrever grátis

O que o ghost text não faz

Pra deixar claro o que a gente construiu e o que não:

Não revisa — isso é outro recurso (e, sinceramente, contrata um humano)
Não continua de forma confiável através de quebras de parágrafo — está tunado pra terminar a ideia atual
Não conhece seu manuscrito inteiro — vê as últimas ~500 palavras de contexto, não o capítulo 1
Não mantém a voz do personagem em trechos longos — esse é um problema de IA muito mais difícil e um modelo de 4B não resolve
Não reescreve em massa — pra isso, use AI Workshop com um modelo de tier mais alto

Faz uma coisa só — pequena continuação inline quando você pausa — e faz bem, rápido, grátis e em sigilo.

Pra onde ir agora

Escreve seu romance e gera o audiolivro num lugar só — a proposta mais ampla do MimicReader como plataforma de escrita
Melhores geradores de audiolivro com IA grátis em 2026 — o que é realmente grátis e o que é marketing
De notas de voz a audiolivro: o pipeline completo de 4 passos — capturar, rascunhar, empacotar, narrar