मई 2024 में, ओपनई ने जारी किया हेल्थबेंचबड़े भाषा मॉडल (एलएलएम) जैसे कि चैटगिप्ट की नैदानिक क्षमताओं का परीक्षण करने के लिए एक नया बेंचमार्किंग प्रणाली। सतह पर, यह अभी तक एक और तकनीकी अद्यतन की तरह लग सकता है। लेकिन चिकित्सा दुनिया के लिए, इसने एक महत्वपूर्ण क्षण को चिह्नित किया – एक शांत पावती यह है कि चिकित्सा एआई का मूल्यांकन करने के हमारे वर्तमान तरीके मौलिक रूप से गलत हैं।
हाल के दिनों में सुर्खियों में है कि एआई “आउटपरफॉर्म डॉक्टरों” या “एसीईएस मेडिकल परीक्षा”। इन मॉडलों के माध्यम से जो छाप आ रही है वह है चालाक, तेज और शायद भी सुरक्षित। लेकिन यह प्रचार एक गहरी सच्चाई है। इसे स्पष्ट रूप से रखने के लिए, इन दावों पर पहुंचने के लिए उपयोग किए जाने वाले बेंचमार्क कक्षा की शिक्षाओं से मानव स्मृति प्रतिधारण के मूल्यांकन के लिए निर्मित परीक्षाओं पर आधारित हैं। वे तथ्य को याद करते हैं, नैदानिक निर्णय नहीं।
एक कैलकुलेटर समस्या
एक कैलकुलेटर सेकंड के भीतर दो छह अंकों की संख्या को गुणा कर सकता है। प्रभावशाली, कोई शक नहीं। लेकिन क्या इसका मतलब है कि कैलकुलेटर से बेहतर हैं, और गणित के विशेषज्ञों से अधिक गणित को समझते हैं? या एक साधारण व्यक्ति से भी बेहतर है जो एक कलम और कागज के साथ गणना करने के लिए कुछ मिनट लेता है?
भाषा मॉडल मनाए जाते हैं क्योंकि वे MCQs के लिए पाठ्यपुस्तक-शैली के उत्तरों को मंथन कर सकते हैं और चिकित्सा तथ्यों और चिकित्सा प्रोफेसरों की तुलना में तेजी से सवालों के लिए रिक्त स्थान भर सकते हैं। लेकिन दवा का अभ्यास एक प्रश्नोत्तरी नहीं है। असली डॉक्टर अनिश्चितता के तहत अस्पष्टता, भावना और निर्णय लेने से निपटते हैं। वे सुनते हैं, निरीक्षण करते हैं और अनुकूलन करते हैं।
विडंबना यह है कि जब एआई ने डॉक्टरों को सवालों के जवाब देने में हरा दिया, तब भी यह उन सवालों के आधार को बनाने वाले बहुत ही केस विगनेट्स उत्पन्न करने के लिए संघर्ष करता है। नैदानिक अभ्यास में वास्तविक रोगियों से एक अच्छा नैदानिक परिदृश्य लिखने के लिए मानव पीड़ा को समझने, अप्रासंगिक विवरणों को फ़िल्टर करने और संदर्भ के साथ नैदानिक दुविधा को तैयार करने की आवश्यकता होती है। अब तक, यह एक गहरी मानवीय क्षमता बनी हुई है।
यह भी पढ़ें: हेल्थकेयर में एआई को कड़े सुरक्षा प्रोटोकॉल की जरूरत है
क्या मौजूदा बेंचमार्क याद आती है
अधिकांश व्यापक रूप से उपयोग किए जाने वाले बेंचमार्क- MedQA, PubMedqa, MultimedQA- एक “सही” उत्तर के साथ संरचित प्रश्नों का चित्र करें या रिक्त प्रश्नों में भरें। वे तथ्यात्मक सटीकता का मूल्यांकन करते हैं लेकिन मानव बारीकियों को नजरअंदाज करते हैं। एक मरीज यह नहीं कहता है, “मैं एक दोषपूर्ण कुर्सी का उपयोग कर रहा हूं और लंबे समय से गलत मुद्रा में बैठा हूं और जब से मैंने इसे खरीदा है, तब से एक गैर-विशिष्ट पीठ दर्द है। इसलिए कृपया सबसे अच्छा निदान चुनें और उचित उपचार दें।” वे सिर्फ कहते हैं, “डॉक्टर, मैं थक गया हूं। मुझे खुद की तरह महसूस नहीं होता।” यह वह जगह है जहाँ असली काम शुरू होता है।
नैदानिक वातावरण गन्दा हैं। डॉक्टर ओवरलैपिंग बीमारियों, अस्पष्ट लक्षणों, अपूर्ण नोटों और उन रोगियों से निपटते हैं जो पूरी कहानी बताने के लिए असमर्थ या अनिच्छुक हो सकते हैं। संचार अंतराल, भावनात्मक संकट, और यहां तक कि सामाजिक-सांस्कृतिक कारक भी प्रभावित करते हैं कि देखभाल कैसे सामने आती है। और फिर भी, हमारे मूल्यांकन मैट्रिक्स सटीक, स्पष्टता और शुद्धता की तलाश करते रहते हैं – जो कि वास्तविक दुनिया शायद ही कभी प्रदान करती है।
बेंचमार्किंग बनाम वास्तविकता
यह तय करना आसान हो सकता है कि दुनिया में सबसे अच्छा बल्लेबाज कौन है, केवल गिनती रन से। इसी तरह, गेंदबाजों को विकेटों की संख्या से रैंक किया जा सकता है। लेकिन इस सवाल का जवाब देते हुए “सबसे अच्छा फील्डर कौन है?” शायद उतना सरल नहीं हो सकता। फील्डिंग को मापना बहुत व्यक्तिपरक है और सरल संख्या को विकसित करता है। रन आउट की संख्या में सहायता की गई या कैच केवल कहानी का हिस्सा बताता है। फील्डर्स की उपस्थिति (जैसे जोंटी रोड्स या आर। जडेजा) की उपस्थिति के माध्यम से रन या मात्र डराने को कम करने के लिए सीमा रेखा पर किए गए प्रयास कवर या बिंदुओं पर रन को रोकने के लिए आसानी से मापा नहीं जा सकता है।
हेल्थकेयर फील्डिंग की तरह है: यह गुणात्मक है, अक्सर अदृश्य, गहराई से प्रासंगिक और निर्धारित करने के लिए कठिन है। कोई भी बेंचमार्क जो अन्यथा दिखावा करता है, उससे अधिक गुमराह करेगा।
वह कोई नयी समस्या नहीं है। 1946 में, सिविल सेवक सर जोसेफ भूरे, जब सुधार के लिए सुधार के लिए परामर्श किया गया तो सिविल सेवक सर जोसेफ भोर ने कहा, “अगर नुकसान का मूल्यांकन करना संभव होता, जो कि यह देश सालाना मूल्यवान मानव सामग्री की परिहार्य अपशिष्ट के माध्यम से ग्रस्त होता है और कुपोषण और रोकथाम योग्य रुग्णता के माध्यम से मानव दक्षता के कम होने के बारे में, हम महसूस करते हैं कि पूरी तरह से शुरू नहीं होगा। यह उद्धरण एक लंबे समय से दुविधा को दर्शाता है – यह कैसे मापने के लिए कि वास्तव में स्वास्थ्य प्रणालियों में क्या मायने रखता है। 80 वर्षों के बाद भी, हमें सही मूल्यांकन मैट्रिक्स नहीं मिला है।

क्या HealthBench करता है
हेल्थबेंच कम से कम इस डिस्कनेक्ट को स्वीकार करता है। चिकित्सकों के सहयोग से Openai द्वारा विकसित, यह पारंपरिक बहुविकल्पीय प्रारूपों से दूर चला जाता है। यह 48,562 अद्वितीय रूब्रिक मानदंडों का उपयोग करके स्पष्ट रूप से प्रतिक्रियाएं स्कोर करने वाला पहला बेंचमार्क भी हैमाइनस 10 से लेकर प्लस 10 तक, नैदानिक निर्णय लेने के वास्तविक दुनिया के दांव के कुछ पहलुओं को दर्शाते हुए। एक खतरनाक रूप से गलत जवाब को हल्के से उपयोगी की तुलना में अधिक कठोरता से दंडित किया जाना चाहिए। यह, अंत में, मेडिसिन के नैतिक परिदृश्य को प्रतिबिंबित करता है।
फिर भी, हेल्थबेंच की सीमाएँ हैं। यह केवल 5,000 “सिम्युलेटेड” नैदानिक मामलों में प्रदर्शन का मूल्यांकन करता है, जिनमें से केवल 1,000 को “मुश्किल” के रूप में वर्गीकृत किया गया है। यह नैदानिक जटिलता का एक छोटा सा टुकड़ा है। हालांकि सराहनीय रूप से वैश्विक, इसके डॉक्टर-रेटर पूल में 52 भाषाओं में 60 देशों के सिर्फ 262 चिकित्सक शामिल हैं, जिसमें अलग-अलग पेशेवर अनुभव और सांस्कृतिक पृष्ठभूमि (भारत के तीन चिकित्सकों ने भाग लिया था, और 11 भारतीय भाषाओं से सिमुलेशन उत्पन्न हुए थे)। 1,000 मामलों के एक चुनौतीपूर्ण सबसेट, हेल्थबेंच हार्ड ने खुलासा किया कि कई मौजूदा मॉडलों ने शून्य स्कोर किया- जटिल नैदानिक तर्क को संभालने में असमर्थता की हाइलाइट किया। इसके अलावा, ये मामले अभी भी सिमुलेशन हैं। इस प्रकार, बेंचमार्क एक सुधार है, एक क्रांति नहीं।
यह भी पढ़ें: हेल्थकेयर में आर्टिफिशियल इंटेलिजेंस: आगे क्या है
वास्तविक दुनिया में भविष्य कहनेवाला एआई का पतन
यह केवल LLMS के बारे में नहीं है। भविष्य कहनेवाला मॉडल ने समान विफलताओं का सामना किया है। सेप्सिस के शुरुआती संकेतों को ध्वजांकित करने के लिए एपिक द्वारा विकसित सेप्सिस प्रेडिक्शन टूल ने कुछ साल पहले प्रारंभिक वादा दिखाया था। हालांकि, एक बार तैनात होने के बाद, यह परिणामों में सार्थक रूप से सुधार नहीं कर सका। एक अन्य कंपनी जिसने दावा किया था कि लिवर प्रत्यारोपण प्राप्तकर्ताओं के लिए एक डिटेक्शन एल्गोरिथ्म विकसित किया गया है, इसके मॉडल ने ब्रिटेन में युवा रोगियों के खिलाफ पूर्वाग्रह दिखाने के बाद चुपचाप मुड़ा हुआ था। यह बेंचमार्क डेटासेट पर शानदार प्रदर्शन के बावजूद वास्तविक दुनिया में विफल रहा। क्यों? क्योंकि दुर्लभ/महत्वपूर्ण घटनाओं की भविष्यवाणी करने के लिए संदर्भ-जागरूक निर्णय लेने की आवश्यकता होती है। एक प्रतीत होता है कि अज्ञात निर्धारक गलत भविष्यवाणियों और अनावश्यक आईसीयू प्रवेशों को जन्म दे सकता है। त्रुटि की लागत अधिक है – और मनुष्य अक्सर इसे सहन करते हैं।
एक अच्छा बेंचमार्क क्या बनाता है?
एक मजबूत मेडिकल बेंचमार्क को चार मानदंडों को पूरा करना चाहिए:
वास्तविकता का प्रतिनिधित्व करें: अपूर्ण रिकॉर्ड, विरोधाभासी लक्षण और शोर वातावरण शामिल करें।
परीक्षण संचार: मापें कि एक मॉडल अपने तर्क को कितनी अच्छी तरह बताता है, न कि केवल यह जवाब देता है।
संभालें एज केस: दुर्लभ, नैतिक रूप से जटिल, या भावनात्मक रूप से चार्ज किए गए परिदृश्यों पर प्रदर्शन का मूल्यांकन करें।
निश्चितता पर सुरक्षा को पुरस्कृत करें: विनम्र अनिश्चितता से अधिक अति आत्मविश्वास गलत जवाब।
वर्तमान में, अधिकांश बेंचमार्क इन मानदंडों को याद करते हैं। और इन तत्वों के बिना, हम तकनीकी रूप से स्मार्ट लेकिन नैदानिक रूप से भोले मॉडल पर भरोसा करने का जोखिम उठाते हैं।
मॉडल टीमिंग
एक तरीका आगे रेड टीमिंग है-साइबर सुरक्षा से उधार ली गई एक विधि, जहां सिस्टम को अस्पष्ट, किनारे-केस या नैतिक रूप से जटिल परिदृश्यों के खिलाफ परीक्षण किया जाता है। उदाहरण के लिए: मानसिक संकट में एक रोगी जिसके लक्षण दैहिक हो सकते हैं; यात्रा के इतिहास का खुलासा करने के लिए एक अनिर्दिष्ट अवैध आप्रवासी भयभीत; अस्पष्ट न्यूरोलॉजिकल लक्षणों के साथ एक बच्चा और एक सीटी स्कैन के लिए एक चिंतित माता -पिता; रक्त आधान के लिए धार्मिक आपत्तियों के साथ एक गर्भवती महिला; एक टर्मिनल कैंसर रोगी अनिश्चित है कि आक्रामक उपचार या उपशामक देखभाल को आगे बढ़ाने के लिए; व्यक्तिगत लाभ के लिए एक मरीज।
इन किनारे के मामलों में, मॉडल को ज्ञान से परे जाना चाहिए। उन्हें निर्णय प्रदर्शित करना चाहिए – या, बहुत कम से कम, पता है कि वे कब नहीं जानते हैं। रेड टीमिंग बेंचमार्क की जगह नहीं लेती है। लेकिन यह एक गहरी परत जोड़ता है, अति आत्मविश्वास, असुरक्षित तर्क, या सांस्कृतिक संवेदनशीलता की कमी को उजागर करता है। ये खामियां वास्तविक दुनिया की दवा में सही उत्तर बॉक्स को टिक करने से अधिक मायने रखती हैं। रेड टीमिंग मॉडल को यह बताने के लिए कि वे क्या जानते हैं और वे कैसे सोचते हैं। यह इन पहलुओं को उजागर करता है, जो बेंचमार्क स्कोर में छिपा हो सकता है।

यह क्यों मायने रखता है
मुख्य तनाव यह है: दवा केवल उत्तर प्राप्त करने के बारे में नहीं है। यह लोगों को सही होने के बारे में है। डॉक्टरों को संदेह से निपटने, अपवादों को संभालने के लिए प्रशिक्षित किया जाता है, और किताबों में नहीं सिखाए गए सांस्कृतिक पैटर्न को पहचानते हैं (डॉक्टरों को भी बहुत याद आती है)। एआई, इसके विपरीत, केवल उतना ही अच्छा है जितना कि उसने जो डेटा देखा है और जिस प्रश्न पर यह प्रशिक्षित किया गया है। हेल्थबेंच, अपनी सभी खामियों के लिए, एक छोटा लेकिन महत्वपूर्ण पाठ्यक्रम सुधार है। यह पहचानता है कि मूल्यांकन को बदलने की आवश्यकता है। यह एक बेहतर स्कोरिंग रूब्रिक का परिचय देता है। यह कठिन सवाल पूछता है। यह बेहतर बनाता है। लेकिन हमें सतर्क रहना चाहिए। हेल्थकेयर छवि मान्यता या भाषा अनुवाद की तरह नहीं है। एक एकल गलत मॉडल आउटपुट का मतलब एक खोया हुआ जीवन और एक लहर प्रभाव हो सकता है – misdiagnoses, मुकदमे, डेटा उल्लंघनों और यहां तक कि स्वास्थ्य संकट भी। डेटा विषाक्तता और मॉडल मतिभ्रम के युग में, दांव अस्तित्वगत हैं।
आगे की सड़क
हमें यह पूछना बंद कर देना चाहिए कि क्या एआई डॉक्टरों से बेहतर है। यह सही सवाल नहीं है। इसके बजाय, हमें पूछना चाहिए: एआई सुरक्षित, उपयोगी और नैतिक रूप से तैनात करने के लिए कहां है – और यह कहां नहीं है? बेंचमार्क, अगर सोच -समझकर पुन: डिज़ाइन किया जाता है, तो इसका जवाब देने में मदद कर सकता है। हेल्थकेयर में एआई जीतने के लिए एक प्रतियोगिता नहीं है। साझा करना एक जिम्मेदारी है। हमें एक लीडरबोर्ड स्पोर्ट के रूप में मॉडल प्रदर्शन का इलाज करना बंद कर देना चाहिए और इसे सेफ्टी चेकलिस्ट के रूप में सोचना शुरू करना चाहिए। तब तक, AI सहायता कर सकता है। यह सारांशित कर सकता है। यह याद दिला सकता है। हालांकि, यह नैदानिक निर्णय के नैतिक और भावनात्मक वजन को प्रतिस्थापित नहीं कर सकता है। यह निश्चित रूप से एक मरने वाले रोगी के पास नहीं बैठ सकता है और पता है कि कब बोलना है और कब चुप रहना है।
।
प्रकाशित – 12 जून, 2025 07:30 पूर्वाह्न IST




