KOReaderは素晴らしい。ただし一つだけ。
Kindle、Kobo、PocketBook、その他の電子インクデバイスをお持ちなら、KOReaderを聞いたことがあるかもしれません。GitHubで22,700以上のスターを獲得し、電子インクハードウェア向けの最も人気のあるオープンソースドキュメントリーダーです。EPUB、PDF、DJVU、MOBI、CBZファイルを、純正ファームウェアでは不可能なレベルのカスタマイズで扱えます。フォントレンダリング、ページ余白、辞書検索、進捗同期、ジェスチャーコントロール — KOReaderはほぼすべてを正しくこなします。
ほぼすべてを。唯一の大きな欠点がテキスト読み上げです。
GitHubのイシュー#545は2015年に作成されました。まだオープンのままです。イシュー#11931は2024年にPiper統合の詳細な提案とともに再度取り上げられました。こちらもまだオープンです。両方のスレッドのコメントは同じことを語っています:KOReaderユーザーはTTSを望んでおり、長い間待っています。
「料理中や通勤中に本を聴けたらいいのに。これがKOReaderと一緒に純正Koboファームウェアを入れたままにしている唯一の理由です。」 — GitHubユーザー、イシュー #11931
「TTSはKOReader史上最も要望の多い機能でしょう。試したすべての回避策がひどい音でした。」 — Reddit、r/ereader
なぜKOReaderにTTSがないのか
努力が足りないわけではありません。技術的な障壁は現実です:
- 電子インクハードウェアが非力。ほとんどの電子書籍リーダーはメモリの限られたARMプロセッサで動いています。Kindle PaperwhiteやKobo Claraでニューラルなニューラルを使ったTTSモデルをローカルで動かすのは現実的ではありません。TTS規格としては軽量なPiperでさえ、多くのデバイスで苦労するでしょう。
- アーキテクチャの合意なし。KOReaderはサーバーからTTSをストリーミングすべき?ローカルエンジンをバンドルすべき?外部アプリにテキストをパイプすべき?それぞれにトレードオフがあり、メンテナーはまだ決定していません。
- オーディオハードウェアの多様性。スピーカー付きの電子リーダーもあれば、Bluetooth対応もあり、どちらもないものもあります。デバイスの一部でしか動作しないTTS機能は、オープンソースプロジェクトでのメンテナンスが困難です。
- 品質への期待が上がった。2015年にはシステムTTS音声が標準でした。2026年には人々がAI品質のナレーションを期待しています。今KOReaderにロボット音声を搭載すれば、満足する人より失望する人のほうが多いでしょう。
#11931で提案されたPiper統合は最も有望な道ですが、かなりのエンジニアリング作業が必要で、まだマージされていません。タイムラインはありません。
現在の回避策(そしてなぜ不十分なのか)
今日TTSが欲しいKOReaderユーザーにはいくつかの選択肢がありますが、どれも良くありません:
- Boox/OnyxデバイスでのAndroid TTS。電子リーダーがAndroidで動作している場合(Onyx Booxなど)、Google TTSやSamsung TTSをインストールし、@Voice Aloud Readerで本を読めます。問題:KOReaderを完全に離れ、読書位置を失い、音声は汎用のシステム音声 — フラットで単調、紛れもなくロボット的です。
- TTSアプリを実行中のスマホへBluetooth接続。同じ本と同期したTTSアプリをスマホで実行し続けるユーザーもいます。2台のデバイス、2つのアプリ、2つの読書位置の管理が必要です。かろうじて動きます。
- Calibre + デスクトップTTS。KOReaderから本をエクスポートし、コンピュータのCalibreで開いて、デスクトップTTSツールを使う。機能しますが、ポータブルリーダーを持っている意味がなくなります。
これらの回避策すべてに共通する根本的な問題があります:長時間聴くには音声品質が十分でないということです。2026年のシステムTTS音声は、短い通知を読む程度なら許容範囲です。10時間の小説には疲れます。
MimicReader:KOReaderのコンパニオン
MimicReaderは、オープンソースのニューラルTTSエンジンであるChatterboxを基盤に構築された電子書籍→オーディオブック変換プラットフォームです。KOReaderのプラグインではありません(まだです — 後述します)。テキスト抽出、章検出、感情分析、専用GPUハードウェアでの音声合成、Whisperベースの品質管理、放送規格への音声正規化まで、フルパイプラインを処理するスタンドアロンサービスです。
出力は23言語のチャプターマーカー付きM4Aファイルです。内蔵プレーヤーでストリーミングするか、ダウンロードしてどこでも聴けます — スマホ、車内、電子リーダーのスピーカーにBluetooth接続でも。
システムTTSとの違い
- 連結型ではなくニューラル音声。Chatterboxは録音済み音素をつなぎ合わせるのではなく、ゼロから音声を生成します。結果はカーナビが案内しているのではなく、人が読んでいるように聞こえます。
- 感情認識。MimicReaderは各パッセージの感情内容 — 緊張、悲しみ、興奮、ユーモアを分析し、音声を調整します。会話は会話らしく聞こえ、アクションシーンはペースが上がります。
- 23言語対応。英語、スペイン語、フランス語、ドイツ語、ポーランド語、日本語、韓国語、アラビア語など15以上。KOReaderユーザーは多言語で読書します。MimicReaderはそれをサポートします。
- ボイスクローニング。5秒のオーディオサンプルをアップロードすれば、エンジンがその声で本をナレーションします。特定のナレーターで読んでもらいたい?短いクリップを録音してAIに任せてください。
今日の使い方
KOReaderプラグインがリリースされるまでのワークフローはこちらです:
- 本のファイルを見つける。電子リーダー上で、KOReaderは設定したディレクトリに本を保存しています(多くの場合
/mnt/onboard/またはカスタムフォルダ)。USB経由でコンピュータに接続するか、内蔵ファイルマネージャーでEPUBを探します。 - EPUBを転送。コンピュータやスマホにコピーします。Calibreでライブラリを管理している場合、ファイルは既にコンピュータ上にあります。
- MimicReaderにアップロード。mimicreader.ai/appにアクセスし、無料アカウントを作成してEPUBをアップロード。PDF、TXT、MOBI、FB2にも対応しています。
- オーディオブックを生成。ライブラリで本を開き、生成ボタンをタップし、音声と言語を選択。AIパイプラインが残りを処理します。準備ができたら通知を受け取ります。
- M4Aをダウンロード。電子リーダー、スマホ、その他のデバイスに転送。M4A対応のオーディオプレーヤーで再生します(つまり、ほぼすべてのプレーヤーです)。
無料枠は月1クレジット — 約1時間のオーディオに相当します。短い小説1冊、または長い本の数章分です。有料クレジットは1時間あたり£1で、有効期限はありません。
近日公開:KOReaderプラグイン
KOReaderの読書メニューに「MimicReaderに送信」オプションを直接追加するLuaプラグインを開発中です。テキストまたは書籍全体を選択すると、プラグインがMimicReaderのAPIにアップロードし、生成をキューに入れます。オーディオブックの準備ができると、デバイスに自動ダウンロードされます。
これがKOReaderユーザーが求めていたワークフローです:パッセージをハイライトし、ボタンをタップし、人間の声で読み上げを聴く — アプリを離れることなく。
プラグインは開発中です。早期アクセスをご希望の方は、ウェイトリストに登録してKOReaderプラグインの優先度に投票してください。
音声品質:あなたが慣れたロボットTTSではありません
TTSの経験がGoogleのシステム音声やAmazon Pollyだけなら、品質の差に驚くでしょう。MimicReaderはChatterboxを使用しています。自然で表現力豊かな音声のために特別に開発されたニューラルTTSモデルです。
「ブラインドの好みテストで、ChatterboxはElevenLabsに63%の確率で選ばれています。」 — Chatterbox研究論文、Resemble AI
これはマーケティングコピーではなく、モデルの公開された評価からのものです。Chatterboxは自然なポーズ、適切な強調、そして長時間のリスニングを疲れるのではなく快適にする微妙な声の変化を持つ音声を生成します。
システムTTSに悩まされてきた、あるいは完全に諦めてきたKOReaderユーザーにとって、これは「5分以上聴いていられない」と「人間のナレーターではないことを忘れていた」の違いです。
KOReaderプラグインをもっと早く欲しいですか?こちらで投票してください — 投票が多いほど優先度が上がります。