KOReader TTS-Alternative: KI-Stimmen, die wirklich menschlich klingen

KOReader ist großartig. Bis auf eine Sache.

Wenn Sie einen Kindle, Kobo, PocketBook oder ein anderes E-Ink-Gerät besitzen, haben Sie wahrscheinlich von KOReader gehört. Mit über 22.700 Sternen auf GitHub ist es der beliebteste Open-Source-Dokumenten-Reader für E-Ink-Hardware. Es verarbeitet EPUB, PDF, DJVU, MOBI und CBZ-Dateien mit einem Grad an Anpassung, den keine Stock-Firmware bieten kann. Schrift-Rendering, Seitenränder, Wörterbuch-Lookup, Fortschritts-Sync, Gestensteuerung — KOReader macht fast alles richtig.

Fast alles. Die eine große Lücke ist Sprachausgabe (Text-to-Speech).

GitHub Issue #545 wurde 2015 eröffnet. Es ist immer noch offen. Issue #11931 griff die Frage 2024 mit einem detaillierten Vorschlag für Piper-Integration wieder auf. Ebenfalls noch offen. Die Kommentare in beiden Threads erzählen die gleiche Geschichte: KOReader-Nutzer wollen TTS, und sie warten schon lange.

„Ich würde meine Bücher so gerne beim Kochen oder Pendeln hören können. Das ist der einzige Grund, warum ich noch die Stock-Kobo-Firmware neben KOReader installiert habe." — GitHub-Nutzer, Issue #11931

„TTS ist wahrscheinlich das meistgewünschte Feature in der Geschichte von KOReader. Jeder Workaround, den ich ausprobiert habe, klingt furchtbar." — Reddit, r/ereader

Warum KOReader kein TTS hat

Es liegt nicht am mangelnden Willen. Die technischen Hürden sind real:

E-Ink-Hardware ist schwach. Die meisten E-Reader laufen auf ARM-Prozessoren mit begrenztem RAM. Ein neuronales TTS-Modell lokal auszuführen ist auf einem Kindle Paperwhite oder einem Kobo Clara nicht realistisch. Selbst Piper, das für TTS-Verhältnisse leichtgewichtig ist, würde auf vielen Geräten Probleme haben.
Kein Konsens über die Architektur. Soll KOReader TTS von einem Server streamen? Eine lokale Engine mitliefern? Text an eine externe App weiterleiten? Jeder Ansatz hat Vor- und Nachteile, und die Maintainer haben sich auf keinen geeinigt.
Audio-Hardware variiert stark. Einige E-Reader haben Lautsprecher. Einige haben Bluetooth. Einige haben weder noch. Ein TTS-Feature, das nur auf einer Teilmenge der Geräte funktioniert, ist in einem Open-Source-Projekt schwer zu pflegen.
Qualitätserwartungen sind gestiegen. 2015 waren System-TTS-Stimmen die Norm. 2026 erwarten die Leute KI-Qualitäts-Erzählung. Eine robotische Stimme heute in KOReader auszuliefern würde mehr Nutzer enttäuschen als zufriedenstellen.

Die in #11931 vorgeschlagene Piper-Integration ist der vielversprechendste Weg nach vorne, erfordert aber erhebliche Entwicklungsarbeit und wurde nicht gemergt. Es gibt keine Timeline.

Die aktuellen Workarounds (und warum sie nicht ausreichen)

KOReader-Nutzer, die heute TTS wollen, haben einige Optionen — keine davon wirklich gut:

Android-TTS auf Boox/Onyx-Geräten. Wenn Ihr E-Reader Android nutzt (wie Onyx Boox), können Sie Google TTS oder Samsung TTS installieren und @Voice Aloud Reader verwenden, um Ihre Bücher vorzulesen. Das Problem: Sie verlassen KOReader komplett, verlieren Ihre Leseposition, und die Stimmen sind generische Systemstimmen — flach, monoton und unmissverständlich robotisch.
Bluetooth zum Handy mit einer TTS-App. Einige Nutzer haben ihr Handy mit einer TTS-App laufen, die zum selben Buch synchronisiert ist. Das erfordert die Verwaltung von zwei Geräten, zwei Apps und zwei Lesepositionen. Es funktioniert, gerade so.
Calibre + Desktop-TTS. Das Buch aus KOReader exportieren, in Calibre am Computer öffnen und ein Desktop-TTS-Tool verwenden. Funktional, aber macht den Zweck eines tragbaren Readers zunichte.

Alle diese Workarounds teilen das gleiche fundamentale Problem: Die Stimmqualität reicht nicht aus, um über einen längeren Zeitraum zuzuhören. System-TTS-Stimmen sind 2026 passabel, um eine kurze Benachrichtigung vorzulesen. Sie sind erschöpfend für einen 10-Stunden-Roman.

MimicReader: Der KOReader-Begleiter

        Die Idee ist einfach: Nehmen Sie das EPUB, das Sie in KOReader lesen, laden Sie es zu MimicReader hoch und bekommen Sie ein echtes Hörbuch mit KI-Stimmen zurück — die Art, die menschlich klingt, mit Emotion, Rhythmus und natürlicher Intonation. Laden Sie die M4A-Datei herunter und hören Sie auf jedem Gerät, einschließlich Ihres E-Readers.
    

MimicReader ist eine E-Book-zu-Hörbuch-Plattform, die auf Chatterbox basiert, einer Open-Source neuronalen TTS-Engine. Es ist kein Plugin für KOReader (noch nicht — dazu weiter unten mehr). Es ist ein eigenständiger Dienst, der die gesamte Pipeline übernimmt: Textextraktion, Kapitelerkennung, emotionale Analyse, Sprachsynthese auf dedizierter GPU-Hardware, Whisper-basierte Qualitätskontrolle und Audio-Normalisierung auf Sendestandard.

Die Ausgabe ist eine M4A-Datei mit Kapitelmarkern in 23 Sprachen. Sie können sie im integrierten Player streamen oder herunterladen, um überall zuzuhören — auf Ihrem Handy, im Auto oder über den Lautsprecher Ihres E-Readers via Bluetooth.

Was es von System-TTS unterscheidet

Neuronale Stimmen, nicht konkatenativ. Chatterbox erzeugt Sprache von Grund auf, anstatt voraufgenommene Phoneme aneinanderzureihen. Das Ergebnis klingt wie eine Person, die vorliest, nicht wie ein Navi, das Anweisungen gibt.
Emotions-bewusst. MimicReader analysiert jede Passage auf emotionalen Inhalt — Anspannung, Trauer, Aufregung, Humor — und passt die Stimme entsprechend an. Dialoge klingen wie Dialoge. Actionszenen werden schneller.
23 Sprachen. Englisch, Spanisch, Französisch, Deutsch, Polnisch, Japanisch, Koreanisch, Arabisch und 15 weitere. KOReader-Nutzer lesen in vielen Sprachen. MimicReader unterstützt das.
Voice-Cloning. Laden Sie eine 5-Sekunden-Aufnahme hoch und die Engine erzählt Ihr Buch in dieser Stimme. Möchten Sie Ihr Hörbuch von einem bestimmten Erzähler vorgelesen bekommen? Nehmen Sie einen kurzen Clip auf und lassen Sie die KI den Rest machen.

So nutzen Sie es heute

Bis das KOReader-Plugin erscheint, sieht der Workflow so aus:

Finden Sie Ihre Buchdatei. Auf Ihrem E-Reader speichert KOReader Bücher in einem von Ihnen konfigurierten Verzeichnis (oft /mnt/onboard/ oder ein benutzerdefinierter Ordner). Verbinden Sie Ihren E-Reader per USB mit einem Computer oder nutzen Sie den eingebauten Dateimanager, um das EPUB zu finden.
Übertragen Sie das EPUB. Kopieren Sie es auf Ihren Computer oder Ihr Handy. Wenn Sie Ihre Bibliothek mit Calibre verwalten, liegt die Datei bereits auf Ihrem Computer.
Laden Sie zu MimicReader hoch. Gehen Sie zu mimicreader.ai/app, erstellen Sie ein kostenloses Konto und laden Sie Ihr EPUB hoch. MimicReader akzeptiert auch PDF, TXT, MOBI und FB2.
Generieren Sie Ihr Hörbuch. Öffnen Sie das Buch in Ihrer Bibliothek, tippen Sie auf den Generieren-Button, wählen Sie eine Stimme und Sprache. Die KI-Pipeline erledigt den Rest. Sie erhalten eine Benachrichtigung, wenn es fertig ist.
Laden Sie die M4A herunter. Übertragen Sie sie zurück auf Ihren E-Reader, Ihr Handy oder ein beliebiges Gerät. Abspielen in jedem Audio-Player, der M4A unterstützt (also im Grunde alle).

Das kostenlose Kontingent gibt Ihnen 1 Credit pro Monat — genug für ungefähr 1 Stunde Audio. Das reicht für einen Kurzroman oder mehrere Kapitel eines längeren Werks. Bezahlte Credits kosten 1 £ pro Stunde und verfallen nie.

Demnächst: KOReader-Plugin

Wir entwickeln ein Lua-Plugin für KOReader, das eine Option „An MimicReader senden" direkt im Lesemenü hinzufügt. Wählen Sie Text oder ein ganzes Buch aus, und das Plugin lädt es zur MimicReader-API hoch und reiht die Generierung ein. Wenn Ihr Hörbuch fertig ist, wird es automatisch auf Ihr Gerät heruntergeladen.

Das ist der Workflow, den KOReader-Nutzer seit Jahren fordern: eine Passage markieren, auf einen Button tippen und sie in einer menschlichen Stimme vorgelesen bekommen — ohne die App zu verlassen.

Das Plugin ist in Entwicklung. Wenn Sie frühzeitig Zugang möchten, melden Sie sich für die Warteliste an und stimmen Sie für die KOReader-Plugin-Priorität ab.

Stimmqualität: Nicht das robotische TTS, das Sie kennen

Wenn Ihre einzige Erfahrung mit TTS Googles Systemstimme oder Amazon Polly ist, wird Sie der Qualitätsunterschied überraschen. MimicReader verwendet Chatterbox, ein neuronales TTS-Modell, das speziell für natürliche, ausdrucksstarke Sprache entwickelt wurde.

„In Blind-Präferenztests wird Chatterbox in 63 % der Fälle gegenüber ElevenLabs bevorzugt." — Chatterbox Research Paper, Resemble AI

Das ist kein Marketingtext — es stammt aus der veröffentlichten Evaluation des Modells. Chatterbox erzeugt Sprache mit natürlichen Pausen, angemessener Betonung und der Art von subtiler stimmlicher Variation, die langes Zuhören angenehm statt ermüdend macht.

Für KOReader-Nutzer, die unter System-TTS gelitten oder ganz aufgegeben haben, ist dies der Unterschied zwischen „Ich kann dem keine fünf Minuten zuhören" und „Ich habe vergessen, dass das kein menschlicher Erzähler war."

MimicReader kostenlos testen

Laden Sie das EPUB aus Ihrer KOReader-Bibliothek hoch und hören Sie den Unterschied, den KI-Stimmen machen. 1 kostenlose Stunde jeden Monat, keine Kreditkarte erforderlich.

Kostenlos starten

Möchten Sie das KOReader-Plugin schneller? Stimmen Sie hier ab — je mehr Stimmen, desto höher die Priorität.