Le moment

Il est 23 h. Vous avez 600 mots dans un chapitre et vous calez sur une phrase qui commence par « Elle savait, comme on sait les choses en rêve, que… » — et votre cerveau s'est vidé. Vous ne voulez pas qu'une Magic 8-Ball vous écrive le paragraphe suivant. Vous voulez juste une impulsion. Quelque chose à lire et à quoi réagir. Un petit miroir qui dit : « …que la porte serait ouverte qu'elle tourne la poignée ou non. »

Vous faites une pause d'une seconde et demie. Le fantôme gris en italique apparaît inline. Si ça colle, Tab. Sinon, Esc, ou continuez à taper — il disparaît. C'est toute l'interaction. C'est gratuit. Ça tourne sur notre matériel. Personne ne lit votre brouillon de l'autre côté.

C'est le Writing Studio de MimicReader avec l'interrupteur AI co-writer activé. Et le contraste avec ce que Sudowrite facture pour la même idée est, franchement, gênant pour Sudowrite.

La taxe Sudowrite

Sudowrite, c'est un excellent marketing emballé autour d'un produit technique plutôt mince. La grille tarifaire mi-2026 :

Ce dernier point est passé sous silence dans le marketing. Sudowrite n'a pas son propre modèle. En coulisses, il appelle l'API OpenAI. Votre manuscrit en cours — y compris les scènes à moitié écrites que vous auriez honte de montrer à votre éditeur — part sur les serveurs d'OpenAI, y est traité, et la complétion revient. Les conditions enterprise d'OpenAI disent qu'ils n'entraînent pas sur les données d'API, ce qui rassure si on fait confiance aux conditions enterprise. (Elles ont déjà changé deux fois cette décennie.)

NovelCrafter est la variante un peu moins chère : $7/mois (environ 6,50 €) pour l'abonnement, puis vous apportez votre propre clé OpenAI ou Anthropic et vous les payez directement à chaque génération. Même flux de données — votre prose quitte toujours la plateforme où vous l'avez tapée.

Ce que « modèle local » signifie réellement

L'AI co-writer de MimicReader n'appelle pas OpenAI. N'appelle pas Anthropic. Il tape sur un modèle de la famille Llama — précisément gemma3:4b — tournant sur notre propre RTX 3090 dans notre propre salle serveur en Écosse.

Quand vous marquez une pause, l'éditeur envoie les ~500 derniers mots de votre brouillon à 192.168.20.155:11434 (via un tunnel WireGuard depuis le VPS), reçoit une suite de 10-30 mots et la rend en texte gris italique inline. Le chemin complet :

  1. Votre navigateur → VPS MimicReader (HTTPS via Cloudflare)
  2. VPS → notre serveur GPU (tunnel WireGuard chiffré, réseau interne)
  3. Le serveur GPU lance Ollama avec gemma3:4b, génère la complétion
  4. La complétion revient par le même chemin
  5. Le texte gris italique apparaît dans votre éditeur

Aucun fournisseur d'IA tiers n'est impliqué. OpenAI ne voit jamais votre phrase. Anthropic ne voit jamais votre phrase. Les seules personnes qui pourraient théoriquement voir votre prose, c'est nous, et on ne logue pas les requêtes — elles atteignent le modèle et le payload disparaît au moment où la réponse est générée. (On logue qu'une requête a eu lieu, pour le rate limit. On ne logue pas ce qu'il y avait dedans.)

Pourquoi c'est important : si vous écrivez de la fiction de genre, de l'érotique, un mémoire sensible ou quoi que ce soit où la prose elle-même est l'actif, chaque appel d'API vers un LLM tiers est un moment où votre brouillon existe sur du matériel qui n'est pas le vôtre. Le modèle local est le seul choix pleinement raisonnable.

Comparaison honnête : quand le local est génial, et quand il ne l'est pas

On ne va pas survendre gemma3:4b. C'est un modèle à 4 milliards de paramètres avec des poids ouverts. Ce n'est pas Claude 4.7. Ce n'est pas GPT-5. Voici la matrice honnête :

TâcheLocal gemma3:4bGros modèle cloud
Termine cette phrase (5-15 mots)ExcellentExcellent
Termine ce paragraphe (20-40 mots)BonExcellent
Rédige le paragraphe suivant à partir de zéroCorrectExcellent
Rédige un chapitre entierMédiocre — utilise WorkshopExcellent — utilise Workshop
Garde la cohérence de voix sur 1000 motsDériveDérive moins, ne disparaît pas
Planifie un plan de 50 chapitresNe le fais pasUtilise AI Workshop / Claude

Le ghost text est volontairement cantonné à la colonne verte. Il existe pour ce moment où votre cerveau marque une pause et où vous voulez un fragment de clôture, pas un brouillon de chapitre. Quand vous voulez des brouillons de chapitre — c'est une autre fonction dans MimicReader appelée AI Workshop, qui utilise Claude ou Gemini (payant, vos crédits) pour du drafting structurel de haute qualité. On vous donne les deux outils et on vous laisse choisir le bon pour le moment.

Si vous passez le plus clair de votre journée à demander à l'IA d'« écrire les 500 prochains mots », vous ne voulez pas de ghost text — vous voulez Workshop. Si vous passez le plus clair de votre journée à écrire vous-même et que vous voulez de temps en temps un petit coup de pouce de clôture, vous voulez le ghost text et vous ne toucherez jamais Workshop. Les deux sont fournis dans chaque compte.

La réalité de la latence : ~400 ms

Pause de 1,5 seconde. La requête part. Le modèle répond en environ 400 millisecondes. Temps total entre votre dernière touche et l'apparition du texte gris : un peu moins de 2 secondes. On a l'impression que l'éditeur vous lit dans les pensées avec un souffle de retard.

À titre de comparaison, les API cloud tournent typiquement en 1 à 3 secondes de bout en bout (plus long pour les plus gros modèles d'OpenAI). La commande « Write » de Sudowrite prend souvent 5 à 15 secondes parce qu'elle enchaîne plusieurs générations côté serveur. Le ghost text de MimicReader est rapide précisément parce que le modèle est petit et habite à côté de la requête.

Tab pour accepter. Esc pour rejeter. Vous gardez le contrôle.

L'interaction est délibérément minimale :

Rien n'est jamais inséré automatiquement. L'IA ne modifie jamais votre brouillon sans un Tab explicite. Si vous ne regardez pas le texte gris et que vous continuez à taper, il disparaît comme s'il n'avait jamais existé. Beaucoup d'auteurs activent la fonction et oublient qu'elle existe, et acceptent de temps en temps une suggestion quand l'éditeur les surprend avec une bonne. C'est le bon mode d'utilisation.

On limite le ghost text à 60 requêtes par minute par utilisateur en fenêtre glissante. En pratique, vous pouvez faire pause et déclencher une suggestion toutes les secondes pendant une minute complète avant de heurter le plafond. Personne n'écrit comme ça. La limite existe pour bloquer les bots, pas les auteurs.

Confidentialité : la vraie raison de s'en soucier

L'IA cloud, ça va pour du code, ça va pour des e-mails, ça va pour la moitié ennuyeuse de votre boulot. Ça ne va pas pour la prose dont vous n'êtes pas encore sûr.

Concrètement : auteurs d'érotique, mémorialistes avec des proches encore vivants dans le manuscrit, romanciers explorant des thèmes sombres (true crime, abus, addiction), professionnels sous NDA, avocats rédigeant des conclusions, thérapeutes prenant des notes sur leurs patients, toute personne travaillant sur quelque chose sous embargo, toute personne écrivant dans une langue avec des sensibilités culturelles que le filtre de sécurité du cloud provider ne comprend pas — pour tous ces gens, chaque appel d'API cloud est un petit risque qu'on choisit de prendre.

Le modèle local, c'est l'absence de ce risque. On ne vous demande pas de faire confiance à la politique de confidentialité d'OpenAI. On ne vous demande pas de faire confiance aux enterprise terms d'Anthropic. On vous demande de faire confiance au fait que le modèle qui tourne sur notre GPU n'a pas de chemin réseau sortant de notre GPU. (Il n'en a pas. Le processus Ollama écoute sur 192.168.20.155:11434 sur un réseau privé. Le VPS y accède via un tunnel WireGuard. Aucune sortie depuis la GPU vers internet public pour le trafic d'inférence.)

Pourquoi on absorbe le temps GPU

Réponse honnête : ça nous coûte environ £0,001 d'électricité par complétion ghost text aux tarifs britanniques. Avec la limite de 60 complétions/min/utilisateur, même un auteur intensif faisant quatre heures d'écriture soutenue avec la fonction à fond nous coûterait peut-être £1 en électricité — et il génère probablement aussi des audiolivres (où se trouve notre vrai revenu) sur le même compte. Le ghost text est une fonction qui rend la plateforme plus collante et apparaît à peine dans nos coûts. Alors on a abandonné l'idée de le monétiser et on l'a juste rendu gratuit.

Sudowrite facture $19/mois pour le ghost text parce que Sudowrite doit payer OpenAI par appel. Leur marge a besoin de votre abonnement. Nous, on ne paie pas OpenAI. On paie notre facture d'électricité. L'économie est vraiment différente — et on préférerait que vous dépensiez ces $19 (environ 17 €) dans un pack de crédits pour de la vraie génération d'audiolivre, là où se trouve le coût.

Comment l'activer

Dans l'application MimicReader :

  1. Ouvrez Réglages
  2. Descendez jusqu'à Writing Studio
  3. Activez AI co-writer (ghost text)
  4. Ouvrez n'importe quel projet, mettez-vous à écrire — 1,5 seconde de pause quand vous voulez une suggestion

Vous pouvez le désactiver à tout moment. Les réglages sont par utilisateur et persistent entre appareils. La fonction est sur le même panneau que les autres préférences Writing Studio (police, thème, pause par défaut entre chapitres, etc.).

Essayez le ghost text — il est juste là

Compte gratuit, sans carte bancaire, l'AI co-writer est inclus dès le premier jour. Tout comme les notes vocales, l'édition de manuscrit, la génération de couverture et 1 heure de génération d'audiolivre par mois.

Commencer à écrire gratuitement

Ce que le ghost text ne fait pas

Pour être clair sur ce qu'on a construit et ce qu'on n'a pas construit :

Il fait une seule chose — petite suite inline quand vous pausez — et il le fait bien, vite, gratuitement et en privé.

Où aller ensuite