इस तरह से शिक्षण मशीनें कि पशु प्रशिक्षक कुत्तों या घोड़ों के व्यवहार को ढालते हैं, कृत्रिम बुद्धिमत्ता विकसित करने के लिए एक महत्वपूर्ण तरीका है और एक जिसे बुधवार को शीर्ष कंप्यूटर विज्ञान पुरस्कार के साथ मान्यता दी गई थी।
सुदृढीकरण सीखने के क्षेत्र में दो अग्रदूत, एंड्रयू बार्टो और रिचर्ड सटन, इस साल के एम ट्यूरिंग अवार्ड के विजेता हैं, जो नोबेल पुरस्कार के टेक वर्ल्ड के समकक्ष हैं।
1970 के दशक के उत्तरार्ध में 67 वर्षीय, 76 और सटन, बार्टो, और सटन के शोध ने पिछले एक दशक की एआई सफलताओं में से कुछ के लिए मार्ग प्रशस्त किया। उनके काम के दिल में तथाकथित “हेडोनिस्टिक” मशीनों को प्रसारित कर रहा था जो सकारात्मक संकेतों के जवाब में लगातार अपने व्यवहार को अनुकूलित कर सकते थे।
सुदृढीकरण सीखने ने Google कंप्यूटर प्रोग्राम को हरा दिया दुनिया के सर्वश्रेष्ठ मानव खिलाड़ी प्राचीन चीनी बोर्ड खेल 2016 में जाते हैं और 2017। यह चैटगिप जैसे लोकप्रिय एआई टूल में सुधार करने, वित्तीय व्यापार का अनुकूलन करने और रोबोटिक हाथ को हल करने में मदद करने के लिए एक महत्वपूर्ण तकनीक भी रही है रुबिकस क्युब।
लेकिन बार्टो ने कहा कि यह क्षेत्र “फैशनेबल नहीं था” जब उन्होंने और उनके डॉक्टरेट छात्र, सटन ने मैसाचुसेट्स, एमहर्स्ट विश्वविद्यालय में अपने सिद्धांतों और एल्गोरिदम को क्राफ्ट करना शुरू किया।
“हम जंगल में एक तरह के थे,” बार्टो ने एसोसिएटेड प्रेस के साथ एक साक्षात्कार में कहा। “यही कारण है कि इस पुरस्कार को प्राप्त करने के लिए यह बहुत संतुष्टिदायक है, यह देखने के लिए कि यह कुछ प्रासंगिक और दिलचस्प के रूप में मान्यता प्राप्त है। शुरुआती दिनों में, यह नहीं था। ”
Google वार्षिक $ 1 मिलियन का पुरस्कार प्रायोजित करता है, जिसे एसोसिएशन फॉर कम्प्यूटिंग मशीनरी द्वारा बुधवार को घोषित किया गया था।
बार्टो, अब मैसाचुसेट्स विश्वविद्यालय से सेवानिवृत्त हुए, और सटन, कनाडा के अल्बर्टा विश्वविद्यालय में एक लंबे समय तक प्रोफेसर, पहले नहीं हैं एआई पायनियर्स जीतने के लिए ब्रिटिश गणितज्ञ, कोडब्रेकर और अर्ली के नाम पर पुरस्कार एआई विचारक एलन ट्यूरिंग। लेकिन उनके शोध ने सीधे ट्यूरिंग की 1947 की एक मशीन के लिए कॉल का जवाब देने की मांग की है जो “अनुभव से सीख सकता है” – जिसे सटन ने “यकीनन सुदृढीकरण सीखने का आवश्यक विचार” के रूप में वर्णित किया है।
विशेष रूप से, उन्होंने मनोविज्ञान और न्यूरोसाइंस में विचारों से उधार लिया था, जिस तरह से आनंद लेने वाले न्यूरॉन्स पुरस्कार या सजा का जवाब देते हैं। 1980 के दशक की शुरुआत में प्रकाशित एक लैंडमार्क पेपर में, बार्टो और सटन ने एक नकली दुनिया में एक विशिष्ट कार्य पर अपना नया दृष्टिकोण निर्धारित किया: इसे गिरने से रोकने के लिए एक चलती गाड़ी पर एक पोल को संतुलित करें। दो कंप्यूटर वैज्ञानिकों ने बाद में सुदृढीकरण सीखने पर व्यापक रूप से इस्तेमाल की जाने वाली पाठ्यपुस्तक का सह-लेखन किया।
Google के मुख्य वैज्ञानिक जेफ डीन ने एक लिखित बयान में कहा, “उन्होंने जो उपकरण विकसित किए हैं, वे एआई बूम का एक केंद्रीय स्तंभ बने हुए हैं और बड़े पैमाने पर अग्रिमों को प्रस्तुत किया है, युवा शोधकर्ताओं के दिग्गजों को आकर्षित किया है, और अरबों डॉलर का निवेश किया है।”
एपी के साथ एक संयुक्त साक्षात्कार में, बार्टो और सटन हमेशा इस बात पर सहमत नहीं थे कि एआई एजेंटों के जोखिमों का मूल्यांकन कैसे करें जो लगातार खुद को बेहतर बनाने की मांग कर रहे हैं। उन्होंने अपने काम को जेनरेटिव एआई तकनीक की शाखा से भी अलग किया, जो वर्तमान में फैशन में है – ओपनईएआई, गूगल और अन्य तकनीकी दिग्गजों द्वारा बनाई गई चैटबॉट्स के पीछे बड़ी भाषा मॉडल जो मानव लेखन और अन्य मीडिया की नकल करते हैं।
“बड़ी पसंद यह है, क्या आप लोगों के डेटा से सीखने की कोशिश करते हैं, या क्या आप एक (एआई) एजेंट के अपने जीवन और अपने अनुभव से सीखने की कोशिश करते हैं?” सटन ने कहा।
सटन ने खारिज कर दिया है कि वह एआई के मानवता के लिए खतरे के बारे में अधिक चिंताओं के रूप में वर्णन करता है, जबकि बार्टो ने असहमति जताई और कहा कि “आपको संभावित अप्रत्याशित परिणामों के बारे में संज्ञानात्मक होना चाहिए।”
14 साल के लिए सेवानिवृत्त होने वाले बार्टो ने खुद को एक लुडाइट के रूप में वर्णित किया, जबकि सटन एक भविष्य को गले लगा रहा है, जिसे वह वर्तमान मनुष्यों की तुलना में अधिक बुद्धि के प्राणियों की उम्मीद करता है – एक विचार जिसे कभी -कभी मरणोपरांत के रूप में जाना जाता है।
“लोग मशीन हैं। वे अद्भुत, अद्भुत मशीनें हैं, “लेकिन वे” अंतिम उत्पाद “भी नहीं हैं और बेहतर काम कर सकते हैं, सटन ने कहा।
“यह आंतरिक रूप से एआई उद्यम का एक हिस्सा है,” सटन ने कहा। “हम खुद को समझने की कोशिश कर रहे हैं और निश्चित रूप से, उन चीजों को बनाने के लिए जो बेहतर काम कर सकते हैं। शायद ऐसी चीजें बनने के लिए। ”