口述筆記がいつも崩れる瞬間
先週の火曜日の朝、犬を散歩させながら、頭の中で一場面を組み立てていた。二人の登場人物、EzraとLyraが、半分水に沈んだ地下室で、川は故意に流れを変えたのかどうかをめぐって言い争っている。良い場面だった。丸ごと頭に降ってきて、キーボードの前に座った瞬間に消えてしまう、あの種類の場面。
だから、電話を持つすべての書き手がやることをやった。口述筆記アプリを開いて、話し始めた。三分後、場面はそこにあった。五分後、書き起こしが手元にあった。「Ezra」はすべて「Israel」に置き換わっていた。「Lyra」はすべて「Lila」に。地下室は「the bay」になり、川は「the reefer」になっていた。検索と置換に三十分かけて、場面はページに乗ったが、火花は消えていた。
これは、声で小説を書こうとする者すべてに共通する経験だ。汎用の口述筆記モデルは、君の本を読んだことがない。君の登場人物リストすら見たことがない。新聞記事の頻度表から固有名詞を当てる、だから珍しい名前 — まさに小説が好んで使う種類の名前 — は、ありふれた名前に書き換えられる。EzraはIsraelに。LyraはLilaに。Saoirseは「Sersha」に。Caitlynは「Caitlin」、あるいはもっとひどい何かに。
解決は構造的でなければならない。口述筆記モデルは、書き起こしを始める前に、君のプロジェクトのことを知っていなければならない。MimicReaderのWriting Studioエディタは、まさにそれをやる。
なぜ典型的な口述筆記は小説家には合わないのか
代替手段を正直に並べてみる:
- Google Web Speech / Chromeの口述筆記 — 速い、無料、ブラウザで動く。君の原稿のことは何も知らない。珍しいものは最寄りのありふれた語に置き換える。約60秒の沈黙で聞くのをやめる。音声はGoogleに送られる。
- Appleの口述筆記(iOS) — iOS 17以降、オンデバイスのモデルは少しましになったが、コーパスは依然として一般的な英語。「テキスト置換」をいくつか追加できるが、それはモデルにバイアスをかけるのではなく、特定の文字列を後処理するだけだ。
- Otter.ai — 会議のために作られている。Zoomで話者を識別するのは見事だ。君の主人公の名前がSorenであって「soaring」ではない、と知ってもらうには役に立たない。
- Dragon Naturally Speaking — 旧来の王様。独自の語彙を学習させられるが、ワークフローは煩雑で、ライセンスは数百ポンド、モバイル体験はあまり良くない。
- 素のWhisper(オープンソースのモデル) — 現代のほとんどのツールの裏で動いている実際の書き起こしエンジン。素晴らしいが、与えるプロンプト次第。何の設定もなければ、小説の文脈はゼロだ。
パターンは同じ — どれも君の世界を知らない。知りようがない。どれも君の原稿の内側にはいないからだ。汎用ツールを特定の仕事にあとから取り付けただけのものだ。
MimicReaderの音声入力はどう動くか
Writing Studioエディタは、君の登場人物リストから、あらすじから、いま編集している章から、ワンクリックの距離にある。マイクボタンを押すと、舞台裏ではこういうことが起こる:
- ブラウザがローカルで音声を録音する(ブラウザのMediaRecorder API、ストリーミングなし)。
- 録音を止めると、音声blobがHTTPSでMimicReaderのGPUにアップロードされる。
- バックエンドが君のプロジェクトのメタデータ — 名前のある登場人物全員、あらすじ、仮タイトル、主要な地名 — を取り出す。
- それらの名前がWhisperの
initial_promptに整形される — Whisperがデコーダにバイアスをかけるための短い文脈文字列だ。「以下の音声は、半分水に沈んだ街Veridiaを舞台にした、Ezra、Lyra、Saoirseが登場する小説からのものです……」 - Whisper Large V3 Turboが我々のRTX 3090で音声を書き起こす。プロンプトが固有名詞の方向にバイアスをかけ、Ezraはそのまま Ezraだ。
- 書き起こしは章エディタのカーソル位置に挿入される。
- 元の音声はノートとしてアカウントに保存される — Whisperが言葉を聞き違えていて、ソースから直したいときに聞き直せるように。
これが種明かしのすべてだ。Whisperは初日からinitial_promptをサポートしているのに、コンシューマ向けの口述筆記ツールでこれを原稿に自動で接続するものは一つもない。我々はやる、なぜなら原稿はすぐそこにあるからだ。
Ezra Vance、Lyra Ó Dálaigh、Saoirse Quinnが入っていれば、Whisperはまさにその綴りを返す。「Israel」「Lila」「Sersha」への自動補正はない。登場人物は彼らの名前のまま残る。
君の音声はここから出ない
この部分は、世間が思っているより重い。口述筆記ツールは、君の声に対して何かをやらなければならない。デフォルトの挙動はいつも親切とは限らない。
- Google Web Speechは音声をGoogleのサーバーに送る。彼らがそれを何に使うか、そして学習データについてEUとUKの法務がやがて何を取り決めるかに左右される。
- Otter、Rev、Trintは既定で君の音声を自社クラウドに無期限に保存する。手動で削除はできる。集約・匿名化したデータで学習する — 条項はプランで変わる。
- Appleの口述筆記は短い発話なら端末上で済むが、拡張ディクテーションは家に電話をかけることがある。
MimicReaderは、約束ではなく、アーキテクチャによって違う:
- 音声は我々のGPU(グラスゴー郊外のサーバーラックにあるRTX 3090)に送られる。OpenAIにも、Googleにも、いかなる第三者にも行かない。
- 書き起こしは、我々が自前でホストするローカルのWhisperモデルで動く。外部の書き起こしサービスへのAPIキーはない。第三者はいない。
- 音声は君のアカウント内でノートとして保管される。聞けるのは君だけだ。Notesタブからいつでも削除できる。アカウント削除(GDPR第17条)でも消える。
- 君の音声でも原稿でも、どんなモデルも学習させない。それだけだ。
もし、繊細な場面を口述するときに居心地の悪さを感じたことがあるなら — 回想録の一章、機密のインタビュー、GoogleのMLチームには絶対に見られたくない物語の山場 — これは、それを心配しないでいいバージョンだ。
モバイルでのワークフロー
マイクボタンはモバイルのChromeとSafariで動く。実際に使っている自分のワークフローは、犬が自分で散歩に行かないので、こうだ:
- ポケットにS24 Ultra、耳にイヤホン、左手に犬のリード。
- mimicreader.ai/appを開き、いま書いている章に移動する。
- マイクを押す(エディタのツールバーの下にある大きな赤い点 — 見逃しようがない)。
- 話す。段落まるごと。場面まるごと。朝の調子が良ければ章まるごと。
- 停止を押す。十秒待つ。書き起こしがインラインで現れる。
- そのまま歩く。次の場面でも繰り返す。
Whisper Large V3 Turboは速い。三分の口述は、我々の3090でおよそ八秒で書き起こされる。電話をポケットに戻して、犬が街灯の柱を嗅ぐのを眺めるまでの間に、テキストは章の中に入っている。
バッテリーへの負荷は語るほどない — オンデバイスのモデルは動いていないからだ。電話がしているのは録音だけで、録音はほとんど何も食わない。多少のネットワークコストはある — 三分のOpus blobで約1 MB。4Gでも安く、自宅Wi-Fiならタダだ。
何が保存されるのか(そしてなぜ)
口述を終えるたびに、二つのものが残る:
- 書き起こし — カーソル位置に挿入され、すぐ編集できる。これが主成果物だ。
- 元の音声 — アカウント内にノートとして保管される。録音のタイムスタンプと、口述された章への戻りリンク付きだ。
音声アーカイブが効いてくるのは、Whisperがバイアス込みでも完璧ではないからだ。「the morning when I」を「the moaning weather」と聞いたかもしれない。風が一語をさらってナンセンスに変えたかもしれない。Notesの中で元の音声がワンタップ先にあれば、その一句をそのまま再生し、自分が本当に何を言ったかを耳で確認し、書き起こしを直せる。三日後に記憶から組み立て直す必要はない。
Notesビューはまた、生の音声をあとのために積み上げておくこともできる。月曜の散歩で四つの場面のスケッチを口述する。水曜の夜、コーヒーを淹れて座り、Notesタブを開き、聞き返して、残す価値のあるものを決める。これは、音声メモからオーディオブックへのパイプラインと同じパターンだ。ただし、Promote-to-chapterボタンではなく、直接エディタに紐付いている。
有効化のしかた
Writing Studioはいまフィーチャーフラグの裏に隠してある — エディタの一部はまだ磨いている最中だからだ。オンにするには:
- MimicReaderアプリで/settingsを開く。
- Writing Studioまでスクロールする。
- トグルをオンにする。保存する。
- 任意のプロジェクトの章を開く。エディタのツールバーに、書式ボタンの隣にマイクのアイコンが現れている。
- それをクリック。ブラウザが訊いてきたらマイクへのアクセスを許可する。話す。
それだけだ。拡張機能はいらない、インストールもいらない、別アプリもいらない。Writing Studioをオンにした瞬間から、マイクボタンはエディタの一部だ。
このワークフローを試す
朝七時に真っ白な文書を開いて、頭にあった場面を最初の段落をタイプし終えるまでに失ったことがあるなら — これがそれを直すワークフローだ。声は火花を保つ。プロジェクトを認識する口述筆記は、登場人物の名前を保つ。