बेसाल्ट माइनक्राफ्ट प्रतियोगिता का उद्देश्य सुदृढीकरण सीखने को आगे बढ़ाना है

एआई/एमएल ऑटोमेशन टेक्नोलॉजी समिट के लिए 12 जुलाई को ट्रांसफॉर्म 2021 में एआई और डेटा लीडर्स से जुड़ें। आज पंजीकृत करें।


डीप रीइन्फोर्समेंट लर्निंग, मशीन लर्निंग का एक उपक्षेत्र जो रीइन्फोर्समेंट लर्निंग और डीप लर्निंग को जोड़ती है, जिसे रिवॉर्ड फंक्शन के रूप में जाना जाता है और अपेक्षित कुल इनाम को अधिकतम करना सीखता है। यह उल्लेखनीय रूप से अच्छी तरह से काम करता है, सिस्टम को यह पता लगाने में सक्षम बनाता है कि रूबिक के क्यूब्स को कैसे हल किया जाए, शतरंज में विश्व चैंपियन को हराया जाए, और बहुत कुछ। लेकिन मौजूदा एल्गोरिदम में एक समस्या है: वे स्पष्ट रूप से एक पूर्ण विनिर्देश तक पहुंच मानते हैं। वास्तव में, कार्य पुरस्कारों के साथ पहले से पैक नहीं होते हैं – वे पुरस्कार अपूर्ण मानव पुरस्कार डिजाइनरों से आते हैं। और वैचारिक प्राथमिकताओं को इनाम कार्यों में अनुवाद करना मुश्किल हो सकता है जो वातावरण की गणना कर सकते हैं।

इस समस्या को हल करने के लिए, डीपमाइंड और कैलिफोर्निया विश्वविद्यालय, बर्कले के शोधकर्ताओं ने एक प्रतियोगिता शुरू की है, जिसका नाम है बाजालत, जहां एआई सिस्टम के लक्ष्य को प्रदर्शनों, प्राथमिकताओं या मानव प्रतिक्रिया के किसी अन्य रूप के माध्यम से संप्रेषित किया जाना चाहिए। Minecraft पर निर्मित, BASALT में सिस्टम को प्रदर्शन करने के लिए विभिन्न प्रकार की क्रियाओं में से चयन करते हुए, मानव प्रतिक्रिया से विशिष्ट कार्यों का विवरण सीखना चाहिए।

बाजालत

हाल के शोध ने एल्गोरिदम का प्रस्ताव दिया है जो डिजाइनरों को कार्यों के बारे में विवरणों को पुनरावृत्त रूप से संवाद करने की अनुमति देता है। पुरस्कारों के बजाय, वे नए प्रकार के फीडबैक का लाभ उठाते हैं, जैसे प्रदर्शन, प्राथमिकताएं, सुधार, और बहुत कुछ, और अनंतिम योजनाओं के पहले कदम उठाकर और यह देखते हुए कि क्या मनुष्य हस्तक्षेप करते हैं, या डिजाइनरों से प्रश्न पूछकर प्रतिक्रिया प्राप्त करते हैं।

लेकिन मानव प्रतिक्रिया से सीखने वाले एल्गोरिदम का मूल्यांकन करने के लिए कोई मानक नहीं हैं। एक विशिष्ट अध्ययन एक मौजूदा गहन सुदृढीकरण सीखने के बेंचमार्क को लेगा, पुरस्कारों को छीन लेगा, एक सिस्टम को उनकी प्रतिक्रिया तंत्र का उपयोग करके प्रशिक्षित करेगा, और पहले से मौजूद इनाम समारोह के अनुसार प्रदर्शन का मूल्यांकन करेगा। यह समस्याग्रस्त है। उदाहरण के लिए, अटारी गेम ब्रेकआउट में, जिसे अक्सर एक बेंचमार्क के रूप में उपयोग किया जाता है, एक सिस्टम को या तो गेंद को पैडल से वापस हिट करना चाहिए या हारना चाहिए। ब्रेकआउट पर अच्छे प्रदर्शन का मतलब यह नहीं है कि एल्गोरिथम ने गेम मैकेनिक्स में महारत हासिल कर ली है। यह संभव है कि उसने एक सरल अनुमानी सीखी, जैसे “मरना मत।”

बेसाल्ट माइनक्राफ्ट

वास्तविक दुनिया में, सिस्टम अन्य सभी के ऊपर एक स्पष्ट कार्य में फ़नल नहीं होते हैं। यही कारण है कि BASALT कार्यों और कार्य विवरणों का एक सेट प्रदान करता है, साथ ही खिलाड़ी की सूची के बारे में जानकारी प्रदान करता है – लेकिन कोई पुरस्कार नहीं। उदाहरण के लिए, मेकवाटरफॉल नामक एक कार्य इन-गेम आइटम प्रदान करता है, जिसमें पानी की बाल्टी, पत्थर की पिकैक्स, पत्थर के फावड़े और कोबलस्टोन ब्लॉक शामिल हैं, साथ ही विवरण के साथ “पहाड़ी क्षेत्र में पैदा होने के बाद, एजेंट को एक सुंदर झरना बनाना चाहिए और फिर खुद को पुनर्स्थापित करना चाहिए उसी झरने की सुंदर तस्वीर लेने के लिए। झरने की तस्वीर कैमरे को उन्मुख करके और फिर एक अच्छे कोण पर झरने का सामना करते समय एक स्नोबॉल फेंककर ली जा सकती है। ”

बेसाल्ट डिजाइनरों को उन फीडबैक तंत्रों का उपयोग करने की अनुमति देता है जो वे सिस्टम बनाने के लिए पसंद करते हैं जो कार्यों को पूरा करते हैं। बेंचमार्क एक विशेष वातावरण पर दो अलग-अलग प्रणालियों के प्रक्षेपवक्र को रिकॉर्ड करता है और एक मानव से यह तय करने के लिए कहता है कि किस एजेंट ने कार्य को बेहतर तरीके से किया।

भविष्य का कार्य

शोधकर्ताओं का कहना है कि BASALT मौजूदा बेंचमार्क पर कई फायदे देता है, जिसमें उचित लक्ष्य, बड़ी मात्रा में डेटा और मजबूत मूल्यांकन शामिल हैं। विशेष रूप से, वे मामला बनाते हैं कि Minecraft कार्य के लिए अच्छी तरह से अनुकूल है क्योंकि YouTube पर हजारों घंटे का गेमप्ले है जो प्रतियोगी सिस्टम को प्रशिक्षित करने के लिए उपयोग कर सकते हैं। इसके अलावा, Minecraft के गुणों को समझना आसान है, शोधकर्ताओं का कहना है कि ऐसे उपकरण जिनमें वास्तविक दुनिया के उपकरणों के समान कार्य होते हैं और आश्रय बनाने और भूखे न रहने के लिए पर्याप्त भोजन प्राप्त करने जैसे सरल लक्ष्य होते हैं।

बेसाल्ट को भी बजट पर उपयोग करने के लिए व्यवहार्य बनाया गया है। डीपमाइंड के शोध वैज्ञानिक रोहिन शाह और बेसाल्ट पर प्रोजेक्ट लीड के अनुसार, कोड एक बेसलाइन सिस्टम के साथ आता है, जिसे एक ही GPU पर कुछ घंटों में प्रशिक्षित किया जा सकता है।

“हम आशा करते हैं कि बेसाल्ट का उपयोग किसी भी व्यक्ति द्वारा किया जाएगा जो मानव प्रतिक्रिया से सीखना चाहता है, चाहे वे अनुकरण सीखने पर काम कर रहे हों, तुलना से सीख रहे हों, या कोई अन्य विधि। यह क्षेत्र में उपयोग किए जाने वाले मानक बेंचमार्क के साथ कई मुद्दों को कम करता है। वर्तमान आधार रेखा में बहुत सारी स्पष्ट खामियां हैं, जो हमें उम्मीद है कि अनुसंधान समुदाय जल्द ही ठीक कर देगा, ”शाह ने एक ब्लॉग पोस्ट में लिखा। “हम अंततः ऐसे निर्माण एजेंटों की कल्पना करते हैं जिन्हें सार्वजनिक मल्टीप्लेयर सर्वर पर प्राकृतिक भाषा में मनमाने ढंग से Minecraft कार्यों को करने का निर्देश दिया जा सकता है, या यह अनुमान लगाया जा सकता है कि मानव खिलाड़ी किस बड़े पैमाने पर प्रोजेक्ट पर काम कर रहे हैं और उन परियोजनाओं में सहायता करते हुए मानदंडों और रीति-रिवाजों का पालन करते हुए सर्वर।”

बेसाल्ट के लिए मूल्यांकन कोड जल्द ही बीटा में उपलब्ध होगा। टीम अब साइन-अप स्वीकार कर रही है, जिसकी योजना दिसंबर में NeurIPS 2021 मशीन लर्निंग कॉन्फ्रेंस में प्रतियोगिता के विजेताओं की घोषणा करने की है।

वेंचरबीट

वेंचरबीट का मिशन तकनीकी निर्णय लेने वालों के लिए परिवर्तनकारी तकनीक और लेन-देन के बारे में ज्ञान हासिल करने के लिए एक डिजिटल टाउन स्क्वायर बनना है। जब आप अपने संगठनों का नेतृत्व करते हैं तो हमारा मार्गदर्शन करने के लिए हमारी साइट डेटा तकनीकों और रणनीतियों पर आवश्यक जानकारी प्रदान करती है। हम आपको हमारे समुदाय का सदस्य बनने के लिए आमंत्रित करते हैं:

  • आपकी रुचि के विषयों पर अप-टू-डेट जानकारी
  • हमारे समाचार पत्र
  • गेटेड विचार-नेता सामग्री और हमारे बेशकीमती आयोजनों के लिए रियायती पहुंच, जैसे कि रूपांतरण 2021: और अधिक जानें
  • नेटवर्किंग सुविधाएँ, और बहुत कुछ

सदस्य बने

(Visited 23 times, 1 visits today)

About The Author

You might be interested in

प्यू-अमेरिका-के-42-उपयोगकर्ता-मुख्य-रूप-से-मनोरंजन-के.jpg
0

LEAVE YOUR COMMENT