वो पल जब डिक्टेशन आमतौर पर विफल होता है

मैं पिछले मंगलवार सुबह कुत्ते को टहला रहा था, सिर में एक दृश्य पर काम कर रहा था। दो पात्र, Ezra और Lyra, आधे डूबे तहखाने में बहस कर रहे थे कि क्या नदी ने जानबूझकर रास्ता बदला है। अच्छा दृश्य। वो किस्म जो पूरी आ जाती है, और कीबोर्ड के सामने बैठते ही गायब हो जाती है।

तो मैंने वही किया जो हर लेखक जो फोन रखता है करता है। मैंने एक डिक्टेशन ऐप खोला और बोलना शुरू किया। तीन मिनट बाद दृश्य मेरे पास था। पांच मिनट बाद ट्रांसक्रिप्ट था। „Ezra" की हर घटना „Israel" में बदल चुकी थी। „Lyra" की हर घटना „Lila" में बदल चुकी थी। तहखाना अब „the bay" था, और नदी „the reefer" बन गई थी। आधे घंटे की खोज-और-बदलने के बाद, दृश्य पन्ने पर था, लेकिन चिंगारी जा चुकी थी।

यह आवाज़ से कथा लिखने का सार्वभौमिक अनुभव है। सामान्य डिक्टेशन मॉडल ने आपकी किताब कभी नहीं पढ़ी। आपकी पात्र सूची तक नहीं पढ़ी। वे समाचार लेखों की आवृत्ति तालिका से उचित नामों का अनुमान लगाते हैं, इसलिए असामान्य नाम — बिल्कुल वही नाम जो कथा साहित्य पसंद करता है — सामान्य नामों में फिर से लिखे जाते हैं। Ezra Israel में। Lyra Lila में। Saoirse „Sersha" में। Caitlyn „Caitlin" में (या इससे भी बदतर)।

समाधान संरचनात्मक है। डिक्टेशन मॉडल को ट्रांसक्राइब करना शुरू करने से पहले आपके प्रोजेक्ट के बारे में जानना होगा। MimicReader का Writing Studio एडिटर बिल्कुल यही करता है।

क्यों सामान्य डिक्टेशन उपन्यासकारों के लिए विफल होता है

विकल्पों का त्वरित दौरा, ईमानदार ग्रेडिंग के साथ:

Google Web Speech / Chrome डिक्टेशन — तेज़, मुफ्त, ब्राउज़र में चलता है। आपकी पांडुलिपि के बारे में शून्य जानता है। किसी भी असामान्य चीज़ को निकटतम सामान्य शब्द से बदल देता है। ~60 सेकंड की चुप्पी के बाद सुनना बंद कर देता है। ऑडियो Google को भेजा जाता है।
Apple डिक्टेशन (iOS) — iOS 17 के बाद से ऑन-डिवाइस मॉडल थोड़ा बेहतर है, लेकिन कॉर्पस अभी भी सामान्य अंग्रेज़ी है। आप कुछ „टेक्स्ट प्रतिस्थापन" जोड़ सकते हैं, लेकिन यह मॉडल को बायस नहीं करता, सिर्फ विशिष्ट स्ट्रिंग्स को पोस्ट-प्रोसेस करता है।
Otter.ai — मीटिंग्स के लिए बना। Zoom कॉल में स्पीकर्स की पहचान में बढ़िया। यह जानने में बेकार कि आपके नायक का नाम Soren है और „soaring" नहीं।
Dragon Naturally Speaking — पुराना राजा। आप कस्टम शब्दावली प्रशिक्षित कर सकते हैं, लेकिन वर्कफ़्लो जटिल है, लाइसेंस सैकड़ों पाउंड का है, और मोबाइल कहानी कठिन है।
सादा Whisper (ओपन-सोर्स मॉडल) — अधिकांश आधुनिक टूल्स के पीछे का वास्तविक ट्रांसक्रिप्शन इंजन। उत्कृष्ट, लेकिन उतना ही अच्छा जितना प्रॉम्प्ट आप देते हैं। बॉक्स से बाहर, उपन्यास का कोई संदर्भ नहीं।

पैटर्न: इनमें से कोई भी टूल आपकी दुनिया को नहीं जानता। नहीं जान सकते, क्योंकि इनमें से कोई आपकी पांडुलिपि के अंदर नहीं है। ये विशिष्ट काम पर बोल्ट किए गए सामान्य-उद्देश्य के टूल्स हैं।

MimicReader का वॉइस डिक्टेशन कैसे काम करता है

Writing Studio एडिटर आपकी पात्र सूची, ब्लर्ब और जिस अध्याय को आप वर्तमान में संपादित कर रहे हैं उससे एक क्लिक दूर रहता है। जब आप माइक्रोफ़ोन बटन दबाते हैं, यहां बताया गया है कि पर्दे के पीछे क्या होता है:

आपका ब्राउज़र स्थानीय रूप से ऑडियो रिकॉर्ड करता है (ब्राउज़र MediaRecorder API, कोई स्ट्रीमिंग नहीं)।
जब आप रिकॉर्डिंग रोकते हैं, ऑडियो ब्लॉब HTTPS पर MimicReader के सर्वर पर अपलोड हो जाता है।
बैकएंड आपके प्रोजेक्ट का मेटाडेटा खींचता है — हर नामित पात्र, ब्लर्ब, कार्यशील शीर्षक, मुख्य स्थान के नाम।
वे नाम Whisper के initial_prompt में स्वरूपित होते हैं — एक छोटी संदर्भ स्ट्रिंग जिसका Whisper अपने डिकोडर को बायस करने के लिए उपयोग करता है। „यह ऑडियो एक उपन्यास से है जिसमें Ezra, Lyra, Saoirse… आधे डूबे शहर Veridia में…"
Whisper Large V3 Turbo हमारे इन्फ्रास्ट्रक्चर पर ऑडियो ट्रांसक्राइब करता है। प्रॉम्प्ट इसे आपके उचित नामों की ओर बायस करता है — Ezra Ezra ही रहता है।
ट्रांसक्रिप्ट आपके अध्याय एडिटर में कर्सर स्थिति पर डाला जाता है।
मूल ऑडियो आपके खाते में नोट के रूप में सहेजा जाता है ताकि अगर Whisper ने कोई शब्द गलत सुना हो और आप इसे स्रोत से ठीक करना चाहें तो आप फिर से सुन सकें।

यही ट्रिक है। Whisper ने पहले दिन से initial_prompt का समर्थन किया है, लेकिन कोई उपभोक्ता डिक्टेशन टूल इसे स्वचालित रूप से पांडुलिपि से जोड़ता नहीं है। हम करते हैं, क्योंकि पांडुलिपि वहीं है।

        „प्रोजेक्ट-अवेयर" का ठोस अर्थ: यदि आपकी पात्र सूची में Ezra Vance, Lyra Ó Dálaigh, और Saoirse Quinn हैं, तो वही सटीक वर्तनी हैं जो Whisper आउटपुट करता है। „Israel", „Lila", या „Sersha" का कोई ऑटोकरेक्ट नहीं। आप अपने पात्रों के नाम रखते हैं।
    

आपका ऑडियो यहां रहता है

यह हिस्सा लोगों के सोचने से ज़्यादा मायने रखता है। डिक्टेशन टूल्स को आपकी आवाज़ के साथ कुछ करना होगा। डिफ़ॉल्ट हमेशा मित्रवत नहीं होते।

Google Web Speech ऑडियो को Google के सर्वर भेजता है। जो भी वे इसे उपयोग कर रहे हैं उसके अधीन, और EU और UK वकील प्रशिक्षण डेटा के बारे में अंततः जो भी बातचीत करेंगे।
Otter, Rev, Trint डिफ़ॉल्ट रूप से आपका ऑडियो अनिश्चित काल तक अपने क्लाउड पर संग्रहीत करते हैं। आप इसे मैन्युअल रूप से हटा सकते हैं। वे एकत्रित, गुमनाम डेटा पर प्रशिक्षण देते हैं — शर्तें टियर के अनुसार बदलती हैं।
Apple डिक्टेशन छोटे उच्चारणों के लिए डिवाइस पर रहता है, लेकिन एन्हांस्ड डिक्टेशन घर फोन कर सकता है।

MimicReader वादे से नहीं, आर्किटेक्चर से अलग है:

ऑडियो हमारे इन्फ्रास्ट्रक्चर (स्कॉटलैंड में एक सर्वर कैबिनेट में) पर भेजा जाता है, OpenAI, Google, या किसी तीसरे पक्ष को नहीं।
ट्रांसक्रिप्शन एक स्थानीय Whisper मॉडल पर चलता है जिसे हम होस्ट करते हैं। किसी तीसरे पक्ष की ट्रांसक्रिप्शन सेवा के लिए कोई API कुंजी नहीं है। कोई तीसरा पक्ष नहीं है।
ऑडियो आपके खाते में एक नोट के रूप में संग्रहीत है। केवल आप इसे सुन सकते हैं। आप इसे किसी भी समय Notes टैब से हटा सकते हैं। खाता हटाना (GDPR अनुच्छेद 17) इसे भी मिटाता है।
हम आपके ऑडियो या आपकी पांडुलिपि पर कोई मॉडल प्रशिक्षित नहीं करते। पूर्ण विराम।

यदि आपको कभी संवेदनशील दृश्य निर्धारित करते समय बेचैनी हुई है — एक संस्मरण अध्याय, एक गोपनीय साक्षात्कार, चरम कथानक मोड़ जिसे आप कभी नहीं चाहते कि Google ML टीम देखे — यह वह संस्करण है जो आपको इसके बारे में चिंता न करने देता है।

मोबाइल वर्कफ़्लो

माइक्रोफ़ोन बटन मोबाइल Chrome और Safari में काम करता है। वास्तविक वर्कफ़्लो जो मैं उपयोग करता हूं, क्योंकि कुत्ता खुद नहीं टहलेगा:

जेब में S24 Ultra, कान में इयरबड, बाएं हाथ में कुत्ते की पट्टी।
mimicreader.ai/app खोलें, जिस अध्याय पर मैं काम कर रहा हूं उस पर जाएं।
माइक्रोफ़ोन दबाएं (एडिटर टूलबार के नीचे एक बड़ा लाल बिंदु — चूकना मुश्किल)।
बात करें। पूरे पैराग्राफ। पूरे दृश्य। पूरे अध्याय अगर सुबह अच्छी है।
स्टॉप दबाएं। दस सेकंड रुकें। ट्रांसक्रिप्ट इनलाइन दिखाई देता है।
आगे चलें। अगले दृश्य के लिए दोहराएं।

Whisper Large V3 Turbo तेज़ है। तीन मिनट का डिक्टेशन हमारे इन्फ्रास्ट्रक्चर पर लगभग आठ सेकंड में ट्रांसक्राइब होता है। जब तक मैं फोन वापस जेब में रखूं और कुत्ते को लैम्पपोस्ट सूंघते देखूं, टेक्स्ट अध्याय में है।

उल्लेख के लायक कोई बैटरी लागत नहीं है, क्योंकि कोई ऑन-डिवाइस मॉडल नहीं चलता — रिकॉर्डिंग ही एकमात्र चीज़ है जो आपका फोन करता है, और रिकॉर्डिंग लगभग कुछ नहीं उपयोग करती। कुछ नेटवर्क लागत है: तीन मिनट का Opus ब्लॉब लगभग 1 MB है। 4G पर सस्ता, होम Wi-Fi पर मुफ्त।

क्या सहेजा जाता है (और क्यों)

हर बार जब आप डिक्टेशन समाप्त करते हैं, दो चीज़ें:

ट्रांसक्रिप्ट — कर्सर पर डाला गया, तुरंत संपादन योग्य। यह प्राथमिक आउटपुट है।
मूल ऑडियो — आपके खाते में एक नोट के रूप में संग्रहीत, रिकॉर्डिंग के टाइमस्टैम्प और जिस अध्याय में इसे डिक्टेट किया गया था उसके लिंक के साथ।

ऑडियो आर्काइव मायने रखता है क्योंकि Whisper, बायस के साथ भी, परिपूर्ण नहीं है। शायद उसने „the morning when I" को „the moaning weather" सुना। शायद हवा ने एक शब्द पकड़ा और इसे बकवास में बदल दिया। Notes में मूल ऑडियो एक टैप दूर होने के साथ, आप सटीक वाक्यांश को फिर से चला सकते हैं, सुन सकते हैं कि आपने वास्तव में क्या कहा, और ट्रांसक्रिप्ट को ठीक कर सकते हैं। तीन दिन बाद स्मृति से पुनर्निर्माण नहीं।

Notes व्यू आपको बाद के लिए कच्चे ऑडियो को ढेर करने की भी अनुमति देता है। सोमवार की सैर पर चार दृश्य रेखाचित्र डिक्टेट करें। बुधवार शाम, कॉफी के साथ बैठें, Notes टैब खोलें, सुनें, और तय करें कि कौन से रखने योग्य हैं। यह वही पैटर्न है जो वॉइस-नोट्स-से-ऑडियोबुक पाइपलाइन उपयोग करती है, बस Promote-to-chapter बटन के बजाय सीधे एडिटर से बंधा।

इसे कैसे सक्षम करें

Writing Studio वर्तमान में एक फीचर फ्लैग के पीछे है, क्योंकि एडिटर के कुछ हिस्से अभी भी पॉलिश हो रहे हैं। इसे चालू करने के लिए:

MimicReader ऐप में /settings खोलें।
Writing Studio तक स्क्रॉल करें।
टॉगल चालू करें। सहेजें।
कोई भी प्रोजेक्ट अध्याय खोलें। एडिटर टूलबार में अब फ़ॉर्मेटिंग बटन के बगल में एक माइक्रोफ़ोन आइकन है।
इस पर क्लिक करें। ब्राउज़र पूछने पर माइक्रोफ़ोन एक्सेस की अनुमति दें। बोलें।

बस इतना ही। कोई एक्सटेंशन नहीं, कोई इंस्टॉल नहीं, कोई अलग ऐप नहीं। माइक्रोफ़ोन बटन Writing Studio सक्षम होते ही एडिटर का हिस्सा है।

वर्कफ़्लो आज़माएं

यदि आपने कभी सुबह 7 बजे एक ताज़ा दस्तावेज़ खोला है जिसमें सिर में एक दृश्य है और टाइपिंग के पहले पैराग्राफ में उसे खो दिया है, तो यह वह वर्कफ़्लो है जो इसे ठीक करता है। आवाज़ चिंगारी रखती है। प्रोजेक्ट-अवेयर डिक्टेशन आपके पात्रों के नाम रखता है।

अपना अगला अध्याय डिक्टेट करें

हर MimicReader खाते के साथ मुफ्त। कोई अतिरिक्त क्रेडिट नहीं, कोई प्रति-अनुरोध लागत नहीं। बस एडिटर, माइक्रोफ़ोन, और वे नाम जो आपने पहले ही लिखे थे।

मुफ्त शुरू करें

आवाज़ से अपना उपन्यास लिखें: डिक्टेशन जो आपके पात्रों को जानता है

वो पल जब डिक्टेशन आमतौर पर विफल होता है

क्यों सामान्य डिक्टेशन उपन्यासकारों के लिए विफल होता है

MimicReader का वॉइस डिक्टेशन कैसे काम करता है

आपका ऑडियो यहां रहता है

मोबाइल वर्कफ़्लो

क्या सहेजा जाता है (और क्यों)

इसे कैसे सक्षम करें

वर्कफ़्लो आज़माएं

अपना अगला अध्याय डिक्टेट करें

आगे कहां जाएं

वो पल जब डिक्टेशन आमतौर पर विफल होता है

क्यों सामान्य डिक्टेशन उपन्यासकारों के लिए विफल होता है

MimicReader का वॉइस डिक्टेशन कैसे काम करता है

आपका ऑडियो यहां रहता है

मोबाइल वर्कफ़्लो

क्या सहेजा जाता है (और क्यों)

इसे कैसे सक्षम करें

वर्कफ़्लो आज़माएं

अपना अगला अध्याय डिक्टेट करें

आगे कहां जाएं

पढ़ना जारी रखें

वॉइस नोट्स से प्रकाशित ऑडियोबुक तक: पूर्ण 4-चरण पाइपलाइन

अपना उपन्यास लिखें और ऑडियोबुक बनाएं — सब एक ही जगह

ऑडियोबुक का स्व-प्रकाशन