मेलबर्न
इस महीने की शुरुआत में, जब ओपनएआई ने अपना नवीनतम प्रमुख कृत्रिम बुद्धिमत्ता (एआई) सिस्टम, जीपीटी-5, जारी किया, तो कंपनी ने कहा कि यह पहले के मॉडलों की तुलना में "सभी पहलुओं में कहीं अधिक स्मार्ट" है। इस दावे के समर्थन में सॉफ्टवेयर कोडिंग, गणित और स्वास्थ्य सेवा जैसे क्षेत्रों का मूल्यांकन करने वाले कई बेंचमार्क परीक्षणों में मिले उच्च अंक थे।
इस तरह के बेंचमार्क परीक्षण एआई प्रणालियों का मूल्यांकन करने का मानक तरीका बन गए हैं - लेकिन ये हमें वास्तविक दुनिया में इन प्रणालियों के वास्तविक प्रदर्शन और प्रभावों के बारे में ज़्यादा कुछ नहीं बताते।
एआई मॉडलों को मापने का बेहतर तरीका क्या होगा? एआई शोधकर्ताओं और माप विज्ञान के विशेषज्ञों - माप विज्ञान के विशेषज्ञों - के एक समूह ने हाल ही में एक आगे का रास्ता बताया है।
यहां माप विज्ञान महत्वपूर्ण है क्योंकि हमें न केवल उन एआई प्रणालियों की विश्वसनीयता सुनिश्चित करने के तरीकों की आवश्यकता है जिन पर हम तेजी से निर्भर हो सकते हैं, बल्कि उनके व्यापक आर्थिक, सांस्कृतिक और सामाजिक प्रभाव का भी कुछ मापन करना होगा।
सुरक्षा मापन
हम यह सुनिश्चित करने के लिए माप विज्ञान पर भरोसा करते हैं कि हमारे द्वारा उपयोग किए जाने वाले उपकरण, उत्पाद, सेवाएँ और प्रक्रियाएँ विश्वसनीय हों।
एक बायोमेडिकल नैतिकतावादी के रूप में, मेरे दिल के बहुत करीब एक चीज़ है - स्वास्थ्य एआई। स्वास्थ्य सेवा में, एआई निदान और रोगी निगरानी में सुधार, चिकित्सा को अधिक व्यक्तिगत बनाने और बीमारियों की रोकथाम में मदद करने के साथ-साथ कुछ प्रशासनिक कार्यों को संभालने का वादा करता है।
ये वादे तभी पूरे होंगे जब हम यह सुनिश्चित कर सकें कि स्वास्थ्य एआई सुरक्षित और प्रभावी है, और इसका मतलब है कि इसे मापने के विश्वसनीय तरीके खोजना।
उदाहरण के लिए, दवाओं और चिकित्सा उपकरणों की सुरक्षा और प्रभावशीलता को मापने के लिए हमारे पास पहले से ही सुस्थापित प्रणालियाँ हैं। लेकिन एआई के मामले में अभी तक ऐसा नहीं है - न तो स्वास्थ्य सेवा में, न ही शिक्षा, रोज़गार, कानून प्रवर्तन, बीमा और बायोमेट्रिक्स जैसे अन्य क्षेत्रों में।
परीक्षण के परिणाम और वास्तविक प्रभाव
वर्तमान में, अत्याधुनिक एआई प्रणालियों का अधिकांश मूल्यांकन बेंचमार्क पर निर्भर करता है। ये ऐसे परीक्षण हैं जिनका उद्देश्य एआई प्रणालियों का उनके परिणामों के आधार पर मूल्यांकन करना है।
वे इस बारे में प्रश्नों का उत्तर दे सकते हैं कि किसी प्रणाली की प्रतिक्रियाएँ कितनी बार सटीक या प्रासंगिक होती हैं, या वे किसी मानव विशेषज्ञ की प्रतिक्रियाओं से कैसे तुलना करती हैं।
वास्तव में सैकड़ों एआई बेंचमार्क हैं, जो ज्ञान के विभिन्न क्षेत्रों को कवर करते हैं।
हालाँकि, बेंचमार्क प्रदर्शन हमें इन मॉडलों के वास्तविक दुनिया में पड़ने वाले प्रभाव के बारे में बहुत कम बताता है। इसके लिए, हमें उस संदर्भ पर विचार करना होगा जिसमें किसी सिस्टम को तैनात किया जाता है।
बेंचमार्क की समस्या
व्यावसायिक एआई डेवलपर्स के लिए उत्पाद प्रदर्शन दिखाने और फंडिंग आकर्षित करने के लिए बेंचमार्क बहुत महत्वपूर्ण हो गए हैं।
उदाहरण के लिए, इस साल अप्रैल में, कॉग्निशन एआई नामक एक युवा स्टार्टअप ने एक सॉफ्टवेयर इंजीनियरिंग बेंचमार्क पर प्रभावशाली परिणाम पोस्ट किए। इसके तुरंत बाद, कंपनी ने एक सौदे में 175 मिलियन अमेरिकी डॉलर (270 मिलियन ऑस्ट्रेलियाई डॉलर) की फंडिंग जुटाई, जिसका मूल्यांकन 2 बिलियन अमेरिकी डॉलर (3.1 बिलियन ऑस्ट्रेलियाई डॉलर) था।
बेंचमार्क के साथ भी छेड़छाड़ की गई है। ऐसा लगता है कि मेटा ने एक प्रमुख चैटबॉट-रैंकिंग साइट पर अपने स्कोर को अनुकूलित करने के लिए अपने लामा-4 मॉडल के कुछ संस्करणों को समायोजित किया है। ओपनएआई के o3 मॉडल को फ्रंटियरमैथ बेंचमार्क पर उच्च स्कोर मिलने के बाद, यह पता चला कि कंपनी के पास बेंचमार्क के पीछे के डेटासेट तक पहुँच थी, जिससे परिणाम पर सवाल उठे।
यहाँ समग्र जोखिम को गुडहार्ट के नियम के रूप में जाना जाता है, जो ब्रिटिश अर्थशास्त्री चार्ल्स गुडहार्ट के नाम पर है: "जब कोई उपाय लक्ष्य बन जाता है, तो वह एक अच्छा उपाय नहीं रह जाता।"
रुम्मन चौधरी के शब्दों में, जिन्होंने एल्गोरिथम नैतिकता के क्षेत्र के विकास को आकार देने में मदद की है, मेट्रिक्स को बहुत अधिक महत्व देने से "हेरफेर, खेल, और अल्पकालिक गुणों पर अदूरदर्शी ध्यान और दीर्घकालिक परिणामों पर अपर्याप्त विचार" हो सकता है।
मानकों से परे
तो अगर मानक नहीं, तो क्या? आइए स्वास्थ्य एआई के उदाहरण पर वापस आते हैं। स्वास्थ्य सेवा में बड़े भाषा मॉडल (एलएलएम) की उपयोगिता का मूल्यांकन करने के लिए पहले मानकों में चिकित्सा लाइसेंसिंग परीक्षाओं का उपयोग किया गया था। इनका उपयोग डॉक्टरों की योग्यता और सुरक्षा का आकलन करने के लिए किया जाता है, इससे पहले कि उन्हें किसी विशेष क्षेत्राधिकार में अभ्यास करने की अनुमति दी जाए।
अत्याधुनिक मॉडल अब ऐसे मानकों पर लगभग पूर्ण अंक प्राप्त करते हैं। हालाँकि, वास्तविक दुनिया के नैदानिक अभ्यास की जटिलता और विविधता को पर्याप्त रूप से प्रतिबिंबित नहीं करने के लिए इनकी व्यापक रूप से आलोचना की गई है।
इसके जवाब में, इन मॉडलों का अधिक विविध और यथार्थवादी कार्यों में मूल्यांकन करने के लिए "समग्र" ढाँचों की एक नई पीढ़ी विकसित की गई है। स्वास्थ्य अनुप्रयोगों के लिए, सबसे परिष्कृत MedHELM मूल्यांकन ढाँचा है, जिसमें निर्णय लेने और नोट लेने से लेकर संचार और अनुसंधान तक, नैदानिक कार्यों की पाँच श्रेणियों में 35 मानक शामिल हैं।
बेहतर परीक्षण कैसा होगा?
मेडहेल्म जैसे अधिक समग्र मूल्यांकन ढाँचे इन खामियों से बचने का लक्ष्य रखते हैं। इन्हें किसी विशेष क्षेत्र की वास्तविक माँगों को प्रतिबिंबित करने के लिए डिज़ाइन किया गया है।
हालाँकि, ये ढाँचे अभी भी वास्तविक दुनिया में मनुष्यों द्वारा AI सिस्टम के साथ अंतःक्रिया करने के तरीकों को समझने में विफल रहते हैं। और वे उन व्यापक आर्थिक, सांस्कृतिक और सामाजिक संदर्भों पर उनके प्रभावों को समझने की शुरुआत भी नहीं करते हैं जिनमें वे काम करते हैं।
इसके लिए हमें एक बिल्कुल नए मूल्यांकन तंत्र की आवश्यकता होगी। इसमें AI सिस्टम के मूल्यांकन के लिए कठोर और पुनरुत्पादनीय तरीके विकसित करने के उद्देश्य से शिक्षा जगत, उद्योग और नागरिक समाज से विशेषज्ञता प्राप्त करने की आवश्यकता होगी।
इस पर काम शुरू हो चुका है। AI सिस्टम के वास्तविक दुनिया के प्रभाव का मूल्यांकन करने के तरीके मौजूद हैं, जिन संदर्भों में उन्हें तैनात किया जाता है - जैसे रेड-टीमिंग (जहाँ परीक्षक जानबूझकर सिस्टम से अवांछित आउटपुट उत्पन्न करने का प्रयास करते हैं) और फील्ड टेस्टिंग (जहाँ किसी सिस्टम का वास्तविक दुनिया के वातावरण में परीक्षण किया जाता है)। अगला कदम इन विधियों को परिष्कृत और व्यवस्थित करना है, ताकि वास्तव में क्या मायने रखता है, इसका विश्वसनीय रूप से आकलन किया जा सके।
यदि एआई उस परिवर्तन का एक अंश भी प्रदान करता है जिसके लिए वह प्रचारित है, तो हमें एक ऐसे मापन विज्ञान की आवश्यकता है जो केवल तकनीकी अभिजात वर्ग के हितों की ही नहीं, बल्कि हम सभी के हितों की रक्षा करे। (द कन्वर्सेशन) आरडी