एआई प्रणालियां परीक्षणों में तो बहुत अच्छी हैं, लेकिन वास्तविक जीवन में उनका प्रदर्शन कैसा है?

Story by  आवाज़ द वॉयस | Published by  onikamaheshwari | Date 25-08-2025
AI systems great at tests, but how do they perform in real life?
AI systems great at tests, but how do they perform in real life?

 

मेलबर्न
 
इस महीने की शुरुआत में, जब ओपनएआई ने अपना नवीनतम प्रमुख कृत्रिम बुद्धिमत्ता (एआई) सिस्टम, जीपीटी-5, जारी किया, तो कंपनी ने कहा कि यह पहले के मॉडलों की तुलना में "सभी पहलुओं में कहीं अधिक स्मार्ट" है। इस दावे के समर्थन में सॉफ्टवेयर कोडिंग, गणित और स्वास्थ्य सेवा जैसे क्षेत्रों का मूल्यांकन करने वाले कई बेंचमार्क परीक्षणों में मिले उच्च अंक थे।
 
इस तरह के बेंचमार्क परीक्षण एआई प्रणालियों का मूल्यांकन करने का मानक तरीका बन गए हैं - लेकिन ये हमें वास्तविक दुनिया में इन प्रणालियों के वास्तविक प्रदर्शन और प्रभावों के बारे में ज़्यादा कुछ नहीं बताते।
 
एआई मॉडलों को मापने का बेहतर तरीका क्या होगा? एआई शोधकर्ताओं और माप विज्ञान के विशेषज्ञों - माप विज्ञान के विशेषज्ञों - के एक समूह ने हाल ही में एक आगे का रास्ता बताया है।
 
यहां माप विज्ञान महत्वपूर्ण है क्योंकि हमें न केवल उन एआई प्रणालियों की विश्वसनीयता सुनिश्चित करने के तरीकों की आवश्यकता है जिन पर हम तेजी से निर्भर हो सकते हैं, बल्कि उनके व्यापक आर्थिक, सांस्कृतिक और सामाजिक प्रभाव का भी कुछ मापन करना होगा।
 
सुरक्षा मापन

हम यह सुनिश्चित करने के लिए माप विज्ञान पर भरोसा करते हैं कि हमारे द्वारा उपयोग किए जाने वाले उपकरण, उत्पाद, सेवाएँ और प्रक्रियाएँ विश्वसनीय हों।
 
एक बायोमेडिकल नैतिकतावादी के रूप में, मेरे दिल के बहुत करीब एक चीज़ है - स्वास्थ्य एआई। स्वास्थ्य सेवा में, एआई निदान और रोगी निगरानी में सुधार, चिकित्सा को अधिक व्यक्तिगत बनाने और बीमारियों की रोकथाम में मदद करने के साथ-साथ कुछ प्रशासनिक कार्यों को संभालने का वादा करता है।
 
ये वादे तभी पूरे होंगे जब हम यह सुनिश्चित कर सकें कि स्वास्थ्य एआई सुरक्षित और प्रभावी है, और इसका मतलब है कि इसे मापने के विश्वसनीय तरीके खोजना।
 
उदाहरण के लिए, दवाओं और चिकित्सा उपकरणों की सुरक्षा और प्रभावशीलता को मापने के लिए हमारे पास पहले से ही सुस्थापित प्रणालियाँ हैं। लेकिन एआई के मामले में अभी तक ऐसा नहीं है - न तो स्वास्थ्य सेवा में, न ही शिक्षा, रोज़गार, कानून प्रवर्तन, बीमा और बायोमेट्रिक्स जैसे अन्य क्षेत्रों में।
 
परीक्षण के परिणाम और वास्तविक प्रभाव

वर्तमान में, अत्याधुनिक एआई प्रणालियों का अधिकांश मूल्यांकन बेंचमार्क पर निर्भर करता है। ये ऐसे परीक्षण हैं जिनका उद्देश्य एआई प्रणालियों का उनके परिणामों के आधार पर मूल्यांकन करना है।
 
वे इस बारे में प्रश्नों का उत्तर दे सकते हैं कि किसी प्रणाली की प्रतिक्रियाएँ कितनी बार सटीक या प्रासंगिक होती हैं, या वे किसी मानव विशेषज्ञ की प्रतिक्रियाओं से कैसे तुलना करती हैं।
 
वास्तव में सैकड़ों एआई बेंचमार्क हैं, जो ज्ञान के विभिन्न क्षेत्रों को कवर करते हैं।
 
हालाँकि, बेंचमार्क प्रदर्शन हमें इन मॉडलों के वास्तविक दुनिया में पड़ने वाले प्रभाव के बारे में बहुत कम बताता है। इसके लिए, हमें उस संदर्भ पर विचार करना होगा जिसमें किसी सिस्टम को तैनात किया जाता है।
 
बेंचमार्क की समस्या

व्यावसायिक एआई डेवलपर्स के लिए उत्पाद प्रदर्शन दिखाने और फंडिंग आकर्षित करने के लिए बेंचमार्क बहुत महत्वपूर्ण हो गए हैं।
 
उदाहरण के लिए, इस साल अप्रैल में, कॉग्निशन एआई नामक एक युवा स्टार्टअप ने एक सॉफ्टवेयर इंजीनियरिंग बेंचमार्क पर प्रभावशाली परिणाम पोस्ट किए। इसके तुरंत बाद, कंपनी ने एक सौदे में 175 मिलियन अमेरिकी डॉलर (270 मिलियन ऑस्ट्रेलियाई डॉलर) की फंडिंग जुटाई, जिसका मूल्यांकन 2 बिलियन अमेरिकी डॉलर (3.1 बिलियन ऑस्ट्रेलियाई डॉलर) था।
 
बेंचमार्क के साथ भी छेड़छाड़ की गई है। ऐसा लगता है कि मेटा ने एक प्रमुख चैटबॉट-रैंकिंग साइट पर अपने स्कोर को अनुकूलित करने के लिए अपने लामा-4 मॉडल के कुछ संस्करणों को समायोजित किया है। ओपनएआई के o3 मॉडल को फ्रंटियरमैथ बेंचमार्क पर उच्च स्कोर मिलने के बाद, यह पता चला कि कंपनी के पास बेंचमार्क के पीछे के डेटासेट तक पहुँच थी, जिससे परिणाम पर सवाल उठे।
 
यहाँ समग्र जोखिम को गुडहार्ट के नियम के रूप में जाना जाता है, जो ब्रिटिश अर्थशास्त्री चार्ल्स गुडहार्ट के नाम पर है: "जब कोई उपाय लक्ष्य बन जाता है, तो वह एक अच्छा उपाय नहीं रह जाता।"
 
रुम्मन चौधरी के शब्दों में, जिन्होंने एल्गोरिथम नैतिकता के क्षेत्र के विकास को आकार देने में मदद की है, मेट्रिक्स को बहुत अधिक महत्व देने से "हेरफेर, खेल, और अल्पकालिक गुणों पर अदूरदर्शी ध्यान और दीर्घकालिक परिणामों पर अपर्याप्त विचार" हो सकता है।
 
मानकों से परे

तो अगर मानक नहीं, तो क्या? आइए स्वास्थ्य एआई के उदाहरण पर वापस आते हैं। स्वास्थ्य सेवा में बड़े भाषा मॉडल (एलएलएम) की उपयोगिता का मूल्यांकन करने के लिए पहले मानकों में चिकित्सा लाइसेंसिंग परीक्षाओं का उपयोग किया गया था। इनका उपयोग डॉक्टरों की योग्यता और सुरक्षा का आकलन करने के लिए किया जाता है, इससे पहले कि उन्हें किसी विशेष क्षेत्राधिकार में अभ्यास करने की अनुमति दी जाए।
 
अत्याधुनिक मॉडल अब ऐसे मानकों पर लगभग पूर्ण अंक प्राप्त करते हैं। हालाँकि, वास्तविक दुनिया के नैदानिक ​​अभ्यास की जटिलता और विविधता को पर्याप्त रूप से प्रतिबिंबित नहीं करने के लिए इनकी व्यापक रूप से आलोचना की गई है।
 
इसके जवाब में, इन मॉडलों का अधिक विविध और यथार्थवादी कार्यों में मूल्यांकन करने के लिए "समग्र" ढाँचों की एक नई पीढ़ी विकसित की गई है। स्वास्थ्य अनुप्रयोगों के लिए, सबसे परिष्कृत MedHELM मूल्यांकन ढाँचा है, जिसमें निर्णय लेने और नोट लेने से लेकर संचार और अनुसंधान तक, नैदानिक ​​कार्यों की पाँच श्रेणियों में 35 मानक शामिल हैं।
 
बेहतर परीक्षण कैसा होगा?

मेडहेल्म जैसे अधिक समग्र मूल्यांकन ढाँचे इन खामियों से बचने का लक्ष्य रखते हैं। इन्हें किसी विशेष क्षेत्र की वास्तविक माँगों को प्रतिबिंबित करने के लिए डिज़ाइन किया गया है।
 
हालाँकि, ये ढाँचे अभी भी वास्तविक दुनिया में मनुष्यों द्वारा AI सिस्टम के साथ अंतःक्रिया करने के तरीकों को समझने में विफल रहते हैं। और वे उन व्यापक आर्थिक, सांस्कृतिक और सामाजिक संदर्भों पर उनके प्रभावों को समझने की शुरुआत भी नहीं करते हैं जिनमें वे काम करते हैं।
 
इसके लिए हमें एक बिल्कुल नए मूल्यांकन तंत्र की आवश्यकता होगी। इसमें AI सिस्टम के मूल्यांकन के लिए कठोर और पुनरुत्पादनीय तरीके विकसित करने के उद्देश्य से शिक्षा जगत, उद्योग और नागरिक समाज से विशेषज्ञता प्राप्त करने की आवश्यकता होगी।
 
इस पर काम शुरू हो चुका है। AI सिस्टम के वास्तविक दुनिया के प्रभाव का मूल्यांकन करने के तरीके मौजूद हैं, जिन संदर्भों में उन्हें तैनात किया जाता है - जैसे रेड-टीमिंग (जहाँ परीक्षक जानबूझकर सिस्टम से अवांछित आउटपुट उत्पन्न करने का प्रयास करते हैं) और फील्ड टेस्टिंग (जहाँ किसी सिस्टम का वास्तविक दुनिया के वातावरण में परीक्षण किया जाता है)। अगला कदम इन विधियों को परिष्कृत और व्यवस्थित करना है, ताकि वास्तव में क्या मायने रखता है, इसका विश्वसनीय रूप से आकलन किया जा सके।
 
यदि एआई उस परिवर्तन का एक अंश भी प्रदान करता है जिसके लिए वह प्रचारित है, तो हमें एक ऐसे मापन विज्ञान की आवश्यकता है जो केवल तकनीकी अभिजात वर्ग के हितों की ही नहीं, बल्कि हम सभी के हितों की रक्षा करे। (द कन्वर्सेशन) आरडी