Connect with us

विज्ञान

India-made app turns impaired speech into clear speech in near-realtime

Published

on

India-made app turns impaired speech into clear speech in near-realtime

एक फुसफुसाहट. कुछ अस्पष्ट शब्द. जो लोग डिसरथ्रिया, मोटर स्पीच डिसऑर्डर से पीड़ित हैं, उनके लिए बुनियादी संचार एक चुनौती है, जो उनके पेशेवर और व्यक्तिगत जीवन दोनों को अमिट रूप से प्रभावित करता है। लेकिन अब कृत्रिम बुद्धिमत्ता (एआई) पर आधारित और भारत में विकसित एक नया आविष्कार जीवन बदलने वाला हो सकता है।

अंतर्राष्ट्रीय सूचना प्रौद्योगिकी संस्थान (आईआईआईटी), हैदराबाद के एसोसिएट प्रोफेसर विनीत गांधी के नेतृत्व में एक टीम ने एक सरल ऐप विकसित किया है जो लोगों को बात करने में मदद कर सकता है क्योंकि ऑडियो अनुवाद वक्ता की आवाज़ को लगभग वास्तविक समय में परिवर्तित कर देता है। ऐप या तो अस्पष्ट भाषण को स्पष्ट, प्राकृतिक-ध्वनि वाले भाषण में परिवर्तित कर सकता है या समझदार भाषण उत्पन्न करने के लिए होंठों की गति और सूक्ष्म गले के कंपन का विश्लेषण करने के लिए कैमरे का उपयोग कर सकता है।

जबकि वर्तमान परियोजना अंग्रेजी में चलती है, टीम का अगला उद्देश्य इन तकनीकों को हिंदी, तेलुगु और तमिल सहित क्षेत्रीय भाषाओं में ले जाना है, क्योंकि देश भर में कई लोगों के पास पहुंच-केंद्रित एआई मॉडल से लाभ उठाने के साधन नहीं हैं। इस कार्य के लिए, श्री गांधी ने 2026 में अनुसंधान नेशनल रिसर्च फाउंडेशन (एएनआरएफ) पुरस्कार जीता।

एक साक्षात्कार के अंश:

आपको इस मानवीय एआई परियोजना पर काम शुरू करने के लिए किसने प्रेरित किया?

मेरा शोध हमेशा एक सरल प्रश्न से प्रेरित रहा है: प्रौद्योगिकी किस वास्तविक समस्या को हल करने में मदद कर सकती है?

जबकि मेरा शैक्षणिक प्रशिक्षण मुख्य रूप से कंप्यूटर विज़न में है, लगभग चार साल पहले, मुझे भाषण अनुसंधान में उभरती रोमांचक संभावनाएं दिखाई देने लगीं और मैंने इस क्षेत्र को और अधिक गहराई से तलाशने का फैसला किया। मैं कई व्यक्तियों के सामने आने वाली चुनौतियों के बारे में तेजी से जागरूक हो गया हूं जो चिकित्सा स्थितियों के कारण बोलने की क्षमता खो देते हैं: इस हानि का प्रभाव संचार से कहीं आगे तक फैलता है – यह स्वतंत्रता, पहचान और कनेक्शन को प्रभावित करता है।

इस आवश्यकता को पहचानने से मुझे भाषण को बहाल करने या सक्षम करने के लिए डिज़ाइन की गई पहुंच-संचालित तकनीकों पर अपना काम केंद्रित करने के लिए प्रेरित किया गया, जिसका लक्ष्य लोगों को उनकी आवाज़ वापस पाने में मदद करना है।

क्या आप बता सकते हैं कि ऐप बोलने में अक्षम लोगों के लिए कैसे काम करता है?

ऐप को केवल कुछ सौ मिलीसेकंड की देरी के साथ ख़राब या विकृत भाषण को स्पष्ट, प्राकृतिक-ध्वनि वाले भाषण में बदलने के लिए डिज़ाइन किया गया है। एक उपयोगकर्ता बस अपनी आवाज में बोलता है, और सिस्टम श्रोता के लिए समझदार भाषण उत्पन्न करने के लिए इसे संसाधित करता है।

हम एक पूरक लिप-टू-स्पीच क्षमता भी विकसित कर रहे हैं, जहां कोई व्यक्ति चुपचाप अपने होंठ हिला सकता है और सिस्टम संबंधित भाषण उत्पन्न करता है।

एक प्रमुख पहलू जिस पर हम ध्यान केंद्रित कर रहे हैं वह वैयक्तिकरण है, जहां उपयोगकर्ता ऐप पर कुछ मिनट के पाठ को पढ़कर एप्लिकेशन को अपनी आवाज के अनुसार कैलिब्रेट और परिष्कृत कर सकते हैं।

हमारा लक्ष्य है कि इन तकनीकों को वेब-आधारित कॉलिंग एप्लिकेशन जैसे सामान्य संचार प्लेटफार्मों में एकीकृत किया जाए, जिससे बोलने में अक्षम लोगों के लिए रोजमर्रा का संचार आसान हो सके।

आपका लक्ष्य इस तकनीक को क्षेत्रीय भारतीय भाषाओं तक विस्तारित करना भी है। आप इसे कैसे हासिल करने की उम्मीद करते हैं?

वर्तमान में, वैश्विक भाषण प्रौद्योगिकी पारिस्थितिकी तंत्र का अधिकांश भाग मुख्य रूप से अंग्रेजी के लिए डिज़ाइन किया गया है, और हमारे प्रारंभिक प्रयोग स्वाभाविक रूप से उसी प्रक्षेपवक्र का अनुसरण करते हैं। हालाँकि, हमारे शोध का एक प्रमुख लक्ष्य इन क्षमताओं को क्षेत्रीय भारतीय भाषाओं तक विस्तारित करना है, जहाँ सुलभ भाषण प्रौद्योगिकियाँ समान रूप से महत्वपूर्ण हैं।

इसे प्राप्त करने के लिए, हम भारतीय भाषाओं में भाषण डेटा एकत्र करने और कम-संसाधन परिदृश्यों के लिए उपयुक्त डेटा-कुशल मॉडल विकसित करने की योजना बना रहे हैं। हमारे दृष्टिकोण में डेटा संवर्द्धन और पूर्व-प्रशिक्षित मॉडलों की कुशल फ़ाइन-ट्यूनिंग शामिल है।

हमने पहले ही आशाजनक परिणामों के साथ हिंदी में प्रारंभिक प्रयोग किए हैं, और अनुसंधान नेशनल रिसर्च फाउंडेशन के समर्थन से, हमारा लक्ष्य इस काम को अतिरिक्त भारतीय भाषाओं में और बढ़ाना और विस्तारित करना है।

आपका मानना ​​है कि भारत में एआई अनुसंधान के लिए “पहुंच और भाषाई विविधता” महत्वपूर्ण हैं। क्या आप विस्तार से बता सकते हैं?

भारत में एआई अनुसंधान के लिए पहुंच और भाषाई विविधता मौलिक विचार हैं। यूरोप में कई साल बिताने के बाद, मैंने देखा कि वहां सार्वजनिक बुनियादी ढांचे और डिजिटल सेवाओं में पहुंच कहीं अधिक व्यवस्थित रूप से एकीकृत है।

इसके विपरीत, भारत में अभी भी महत्वपूर्ण कमियां हैं, यहां तक ​​कि रेलवे स्टेशनों जैसे सार्वजनिक स्थानों पर भी, जहां बुनियादी पहुंच प्रावधान अक्सर सीमित होते हैं। यह उन प्रौद्योगिकियों को डिज़ाइन करने की व्यापक आवश्यकता पर प्रकाश डालता है जिनमें सचेत रूप से विकलांग लोगों को शामिल किया गया है।

वहीं, भारत की भाषाई विविधता एक और महत्वपूर्ण आयाम प्रस्तुत करती है। देश के कई हिस्सों में, विशेष रूप से ग्रामीण क्षेत्रों में, बातचीत बातचीत का सबसे स्वाभाविक और प्राथमिक तरीका बनी हुई है। ऐसे संदर्भों में टेक्स्ट-भारी या टाइपिंग-आधारित इंटरफ़ेस हमेशा व्यावहारिक या समावेशी नहीं हो सकते हैं। इसलिए, भारत के लिए डिज़ाइन किए गए एआई सिस्टम को भाषण-आधारित बातचीत को प्राथमिकता देनी चाहिए और कई क्षेत्रीय भाषाओं का समर्थन करना चाहिए।

कुल मिलाकर, यदि डिजिटल प्रौद्योगिकियों को वास्तव में समावेशी और देश भर में व्यापक रूप से उपयोग करने योग्य बनाना है तो भाषाई विविधता के लिए सार्थक पहुंच और मजबूत समर्थन आवश्यक है।

WHO ने कहा है कि “स्वास्थ्य सेवा का भविष्य डिजिटल है”…

विश्व स्वास्थ्य संगठन ने इस बात पर जोर दिया है कि स्वास्थ्य सेवा का भविष्य तेजी से डिजिटल होगा। भारत जैसे देश में, टेलीमेडिसिन एक परिवर्तनकारी भूमिका निभा सकता है, खासकर जब स्थानीय स्तर पर बुनियादी नैदानिक ​​बुनियादी ढांचे द्वारा समर्थित हो, जो अधिक सटीक दूरस्थ परामर्श सक्षम बनाता है।

एक अन्य महत्वपूर्ण दिशा एआई-सहायता प्राप्त डायग्नोस्टिक्स है, जहां मशीन लर्निंग सिस्टम प्रारंभिक बीमारी का पता लगाने और भविष्यवाणी का समर्थन करने के लिए चिकित्सा छवियों, भाषण या स्वास्थ्य रिकॉर्ड का विश्लेषण करते हैं।

व्यावहारिक समाधान पहले से ही उभर रहे हैं। उदाहरण के लिए, वाधवानी एआई द्वारा विकसित ‘शिशु मापन’ मोबाइल फोटो से नवजात शिशु के वजन और आकार को मापने में मदद करता है और इसे आशा कार्यकर्ताओं जैसे फ्रंटलाइन स्वास्थ्य कार्यकर्ताओं द्वारा अपनाया जा रहा है।

डिजिटल उपकरण सहायक स्वास्थ्य देखभाल प्रौद्योगिकियों को भी सक्षम कर रहे हैं, जिनमें बोलने की क्षमता खो चुके व्यक्तियों के लिए भाषण बहाली प्रणाली और पहनने योग्य उपकरण शामिल हैं जो लगातार स्वास्थ्य मापदंडों की निगरानी करते हैं और डॉक्टरों को संभावित विसंगतियों के प्रति सचेत करते हैं। ये विकास बताते हैं कि कैसे डिजिटल नवाचार स्वास्थ्य सेवा को अधिक सुलभ और स्केलेबल बना सकता है।

एआई-जनरेटेड भाषण की एक आम आलोचना यह है कि हालांकि यह समझदार है, यह अक्सर वक्ता की अद्वितीय ताल को पकड़ने में विफल रहता है। डिसरथ्रिया से पीड़ित किसी व्यक्ति की आवाज़ बहाल करते समय, आप उपयोगकर्ता के व्यक्तिगत मानवीय सार को संरक्षित करने की आवश्यकता के साथ स्पष्ट संचार की आवश्यकता को कैसे संतुलित करते हैं?

यह एक महत्वपूर्ण चिंता का विषय है. यदि डिसरथ्रिया की शुरुआत से पहले वक्ता की मूल आवाज की रिकॉर्डिंग उपलब्ध है, तो आधुनिक आवाज क्लोनिंग तकनीकें कम से कम 10 सेकंड के भाषण के साथ उस आवाज को फिर से बना सकती हैं। इसलिए किसी व्यक्ति की मुखर पहचान को संरक्षित करना आज तकनीकी रूप से संभव है, और इस क्षमता को प्रदर्शित करने वाले पर्याप्त शोध मौजूद हैं। हालाँकि, हमारा वर्तमान ऐप मुख्य रूप से सामग्री की सुगमता को बहाल करने पर केंद्रित है, यह सुनिश्चित करते हुए कि उपयोगकर्ता जो कहना चाहता है वह स्पष्ट रूप से बताया गया है। अभी के लिए, उत्पन्न भाषण वैयक्तिकृत के बजाय सामान्य आवाज़ का उपयोग करता है।

जैसा कि कहा गया है, टेक्स्ट-टू-स्पीच सिस्टम तेजी से प्राकृतिक होते जा रहे हैं, इस हद तक कि अब उन्हें कई पारंपरिक ग्राहक सेवा अनुप्रयोगों की जगह संवादी बॉट में एकीकृत किया जा रहा है। भावनात्मक बारीकियां अधिक चुनौतीपूर्ण बनी हुई हैं, जैसा कि हमने सहानुभूतिपूर्ण भाषण निर्माण पर अपने पहले के काम में चर्चा की थी, लेकिन प्रगति तेजी से हो रही है।

जब उपयोगकर्ता एक व्यस्त भारतीय सड़क पर नेविगेट करता है तो मॉडल खराब भाषण और शोर पृष्ठभूमि के बीच अंतर कैसे करता है?

यह वास्तव में भारत में एक महत्वपूर्ण चुनौती है, जहां वास्तविक दुनिया का वातावरण बेहद अराजक हो सकता है। जिस किसी ने भी यहां सेल्फ-ड्राइविंग कारों को तैनात करने के बारे में सोचा है, उसे जल्द ही एहसास हो जाता है कि हमारी सड़कें कितनी अप्रत्याशित हो सकती हैं: ट्रैफिक पैटर्न, हॉर्न बजाना, पैदल यात्री, और वाहन सभी अत्यधिक गतिशील तरीकों से बातचीत करते हैं। भाषण प्रौद्योगिकी को समान स्तर की जटिलता का सामना करना पड़ता है।

हमारे प्रयोगों में, हम शोर वृद्धि का उपयोग करके मजबूती में सुधार करते हैं, जहां हम प्रशिक्षण के दौरान विभिन्न शोर वाले वातावरण का अनुकरण करते हैं ताकि मॉडल पृष्ठभूमि ध्वनियों को संभालना सीख सके। अंततः, सबसे प्रभावी समाधान शोर-शराबे वाली सेटिंग से अधिक वास्तविक दुनिया के डेटा को एकत्र करना और प्रशिक्षित करना है। फिर भी, प्रदर्शन में कुछ गिरावट अपरिहार्य है क्योंकि बिगड़े हुए भाषण को भारी पृष्ठभूमि शोर से अलग करना मूल रूप से एक कठिन समस्या है।

दिव्य.गांधी@thehindu.co.in

Continue Reading
Click to comment

Leave a Reply

Your email address will not be published. Required fields are marked *

विज्ञान

Science Quiz on chemistries of the surface and the bulk

Published

on

By

Science Quiz on chemistries of the surface and the bulk

यहां प्रदर्शित शानदार प्रभाव का नाम बताइए। इंद्रधनुषीपन का एक रूप, यह पूरी तरह से सीप के खोल की सतह की विशेषताओं के कारण होता है। श्रेय: ब्रॉकन इनाग्लोरी (CC BY-SA)

Continue Reading

विज्ञान

How David Attenborough’s lush imagery hid a history of colonial harm

Published

on

By

How David Attenborough’s lush imagery hid a history of colonial harm

जब डेविड एटनबरो ने यॉर्कशायर संग्रहालय में एक प्रदर्शनी खोली तो उन्हें एक एनिमेटेड, कंप्यूटर जनित थेरोपोड डायनासोर के साथ चित्रित किया गया। | फोटो साभार: गेटी इमेजेज़

ब्रिटिश प्राकृतिक इतिहासकार डेविड एटनबरो आज 100 वर्ष के हो गए। यह संभव है कि किसी ने भी गैर-मानवीय दुनिया को बड़े पैमाने पर दर्शकों के लिए अधिक सुपाठ्य और पसंदीदा बनाने के लिए इतना कुछ नहीं किया है। एक मेजबान के रूप में एटनबरो का करियर शुरू हुआ चिड़ियाघर क्वेस्ट 1954 में, सात दशकों और नौ वृत्तचित्र श्रृंखलाओं तक फैला हुआ। दुनिया भर में लोगों की कई पीढ़ियाँ पारिस्थितिकी और संरक्षण को कैसे देखती हैं, इस पर उनका प्रभाव अद्वितीय है।

फिर भी यही वह चीज़ है जिसने उनके काम और इसे संप्रेषित करने के उनके प्रयासों को इतना परेशानी भरा बना दिया है।

Continue Reading

विज्ञान

Uttarakhand flood maps may be underestimating risk, study warns

Published

on

By

Uttarakhand flood maps may be underestimating risk, study warns

8 जुलाई, 2025 की इस तस्वीर में उत्तराखंड के चमोली के एक गांव में भारी बारिश के बाद बाढ़ जैसी स्थिति दिखाई दे रही है। | फोटो साभार: पीटीआई

एक अध्ययन के अनुसार, उत्तराखंड के लिए बाढ़ के खतरे के आकलन ने नियमित रूप से इसके कस्बों और गांवों के लिए खतरे को कम करके आंका है क्योंकि वे अत्यधिक बारिश के बजाय दीर्घकालिक औसत वर्षा के आंकड़ों पर निर्भर रहे हैं जो वास्तव में आपदाओं को जन्म देते हैं। वर्तमान विज्ञान. यह निष्कर्ष ऐसे समय में सामने आया है जब हिमालयी राज्य उस समस्या से जूझ रहा है जिसे जलवायु वैज्ञानिक बादल फटने, हिमानी झील के फटने और अचानक आने वाली बाढ़ के तीव्र पैटर्न के रूप में वर्णित करते हैं।

जयपुर के मालवीय राष्ट्रीय प्रौद्योगिकी संस्थान के शोधकर्ताओं के नेतृत्व में किए गए अध्ययन से पता चला कि 2017-2021 में बाढ़ के खतरे वाले क्षेत्र कैसे तीव्र हो गए हैं। ‘उच्च’ या ‘गंभीर खतरे’ वाले क्षेत्रों के रूप में वर्गीकृत क्षेत्रों में उस अवधि के दौरान उल्लेखनीय रूप से वृद्धि हुई, 2021 में ‘उच्च-खतरा’ भूमि की सबसे बड़ी सीमा देखी गई। जांच किए गए सभी वर्षों में, उत्तराखंड का 90% से अधिक हिस्सा मध्यम या उच्च-खतरे वाली श्रेणियों में आता है।

शोधकर्ताओं ने भौगोलिक सूचना प्रणाली (जीआईएस) का उपयोग करके पूरे उत्तराखंड में बाढ़ के खतरे वाले क्षेत्रों का मानचित्रण किया, जो हर जगह योजनाकारों द्वारा उपयोग की जाने वाली एक लोकप्रिय डिजिटल मैपिंग तकनीक है। उन्होंने यह आकलन करने के लिए छह कारकों को संयोजित किया कि बाढ़ की सबसे अधिक संभावना कहां है: ऊंचाई, ढलान, जल निकासी घनत्व, स्थलाकृतिक गीलापन, भूमि उपयोग और वर्षा। प्रत्येक कारक को बाढ़ पर उसके प्रभाव को दर्शाते हुए एक भार दिया गया था। ढलान, ऊंचाई और वर्षा को सबसे महत्वपूर्ण आंका गया; भूमि उपयोग, जल निकासी घनत्व और नमी को गौण माना गया।

फिर एक बार किसी दिए गए वर्ष में दर्ज की गई उच्चतम वर्षा का उपयोग करके और तीन दशकों में उन वार्षिक चोटियों के औसत का उपयोग करके एक बार नक्शा तैयार किया गया था। विरोधाभास बहुत गहरा था. जब सबसे भारी वार्षिक वर्षा हुई, तो पूरे राज्य में गंभीर और उच्च जोखिम वाले क्षेत्रों का विस्तार हुआ। जब इसके बजाय दीर्घकालिक औसत का उपयोग किया गया, तो वे क्षेत्र सिकुड़ते दिखाई दिए। लेखकों ने तर्क दिया कि औसत मूल्यों पर निर्भर पारंपरिक तरीके योजनाकारों को सुरक्षा की झूठी भावना दे सकते हैं।

ये निष्कर्ष उस राज्य के लिए महत्वपूर्ण हैं, जिसने पिछले दो दशकों में आपदाओं की एक श्रृंखला देखी है, 1998 के मालपा भूस्खलन और 2013 की केदारनाथ आपदा से, जिसमें उत्तराखंड में बेंचमार्क मानसून वर्षा का 375% प्राप्त हुआ, 2021 की चमोली बाढ़ तक। जलवायु वैज्ञानिकों ने हिमालय में अत्यधिक वर्षा की बढ़ती आवृत्ति को गर्म होते वातावरण से जोड़ा है। अध्ययन में कहा गया है कि पूरे राज्य में निर्मित क्षेत्रों का भी विस्तार हुआ है, जिससे अपवाह को अवशोषित करने में कम भूमि बची है।

लेखकों का सुझाव है कि लंबी अवधि के औसत के बजाय अत्यधिक वर्षा परिदृश्यों के आसपास बाढ़ के नक्शे फिर से बनाए जाएं, और सबसे कमजोर इलाके के आसपास बफर जोन बनाए जाएं। उन्होंने कहा कि देखे गए बाढ़ डेटा के विरुद्ध फ़ील्ड सत्यापन, ऐसे मानचित्रों से नीतिगत निर्णय लेने से पहले आवश्यक होगा।

Continue Reading

Trending