EleutherAI का दावा है कि नया NLP मॉडल GPT-3-स्तर के प्रदर्शन के करीब पहुंच गया है

अपनी एंटरप्राइज़ डेटा तकनीक और रणनीति को ऊपर उठाएं रूपांतरण 2021.


एआई-संचालित भाषा प्रणालियों में विशेष रूप से उद्यम में परिवर्तनकारी क्षमता होती है। उनका पहले से ही चैटबॉट चलाने, प्राकृतिक भाषा को संरचित क्वेरी भाषा में अनुवाद करने, एप्लिकेशन लेआउट और स्प्रैडशीट बनाने और वेब खोज उत्पादों की सटीकता में सुधार करने के लिए उपयोग किया जा रहा है। ओपनएआई के जीपीटी-3, जो कि सबसे प्रसिद्ध एआई टेक्स्ट-जनरेटर हो सकता है, वर्तमान में हजारों डेवलपर्स द्वारा 300 से अधिक ऐप्स में उपयोग किया जाता है और प्रति दिन 4.5 बिलियन शब्दों का उत्पादन करता है।

जैसे-जैसे एआई में व्यावसायिक रुचि बढ़ती है, सलाहकार फर्म मोर्डोर इंटेलिजेंस का अनुमान है कि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) बाजार की तुलना में अधिक होगा। ट्रिपल 2025 तक इसका राजस्व। लेकिन गैर-व्यावसायिक, खुले स्रोत के प्रयास समवर्ती रूप से भाप प्राप्त कर रहे हैं, जैसा कि द्वारा की गई प्रगति से प्रमाणित है। एलुथेरएआई. AI शोधकर्ताओं के एक जमीनी संग्रह, EleutherAI ने इस सप्ताह GPT-J-6B (GPT-J) जारी किया, एक मॉडल जो समूह का दावा है कि विभिन्न कार्यों पर एक समान आकार के GPT-3 मॉडल के बराबर प्रदर्शन करता है। योगदानकर्ता बेन वांग ने काम का नेतृत्व किया।

EleutherAI के संस्थापक सदस्यों में से एक, Connor Leahy ने VentureBeat को बताया, “हमें लगता है कि यह कहना शायद उचित है कि यह वर्तमान में सबसे अच्छा ओपन सोर्स ऑटोरेग्रेसिव भाषा मॉडल है जिसे आप काफी बड़े अंतर से प्राप्त कर सकते हैं।”

GPT-J वह है जिसे a . के रूप में जाना जाता है ट्रांसफार्मर मॉडल, जिसका अर्थ है कि यह सभी इनपुट डेटा को समान मानने के बजाय इनपुट डेटा के विभिन्न भागों के प्रभाव को तौलता है। ट्रांसफॉर्मर को अंत से पहले वाक्य की शुरुआत को संसाधित करने की आवश्यकता नहीं होती है। इसके बजाय, वे उस संदर्भ की पहचान करते हैं जो वाक्य में एक शब्द पर अर्थ प्रदान करता है, जिससे उन्हें समानांतर में इनपुट डेटा को संसाधित करने में सक्षम बनाता है।

ट्रांसफॉर्मर आर्किटेक्चर भाषा मॉडल की रीढ़ बनाता है जिसमें GPT-3 और Google शामिल हैं बर्ट, लेकिन EleutherAI का दावा है कि GPT-J को अन्य बड़े पैमाने के मॉडल विकासों की तुलना में प्रशिक्षित होने में कम समय लगा। शोधकर्ताओं ने इसका श्रेय मशीन लर्निंग रिसर्च के लिए डिजाइन किए गए डीपमाइंड के पायथन लाइब्रेरी के साथ-साथ Google के प्रशिक्षण के लिए जैक्स के उपयोग को दिया है। टेंसर प्रोसेसिंग यूनिट (टीपीयू), एआई में तेजी लाने के लिए विशेष रूप से विकसित एप्लिकेशन-विशिष्ट एकीकृत सर्किट (एएसआईसी)।

प्रशिक्षण जीपीटी-जे

EleutherAI का कहना है कि GPT-J में लगभग 6 बिलियन पैरामीटर शामिल हैं, मशीन लर्निंग मॉडल के कुछ हिस्सों को ऐतिहासिक प्रशिक्षण डेटा से सीखा गया है। शैक्षणिक स्रोतों (जैसे, Arxiv, PubMed), समुदायों (StackExchange, विकिपीडिया), कोड सहित – द पाइल नामक EleutherAI द्वारा बनाए गए डेटासेट से 400 बिलियन टोकन पर पांच सप्ताह के दौरान प्रशिक्षित किया गया था, 22 छोटे डेटासेट का एक 835GB संग्रह। रिपॉजिटरी (जीथब), और बहुत कुछ। (टोकन पाठ के टुकड़ों को प्राकृतिक भाषा में छोटी इकाइयों में अलग करने का एक तरीका है, और वे शब्द, वर्ण या शब्दों के हिस्से हो सकते हैं।)

एलुथेरएआई

ऊपर: GPT-J बुनियादी गणित की समस्याओं को हल कर सकता है।

छवि क्रेडिट: EleutherAI

गणना के लिए, EleutherAI Google क्लाउड पहल TPU रिसर्च क्लाउड का लाभ उठाने में सक्षम था, जो इस उम्मीद के साथ परियोजनाओं का समर्थन करता है कि शोध के परिणाम कोड और मॉडल के माध्यम से साझा किए जाएंगे। GPT-J का कोड और प्रशिक्षित मॉडल Apache 2.0 लाइसेंस के तहत ओपन-सोर्स हैं और इसका उपयोग मुफ्त में किया जा सकता है EleutherAI की वेबसाइट.

GPT-J पहले जारी किए गए दो EleutherAI मॉडल की तुलना में अधिक सक्षम है: जीपीटी-नियो 1.3बी और जीपीटी-नियो 2.7बी. उदाहरण के लिए, यह जोड़ और घटाव कर सकता है और सरल गणितीय प्रमेयों को सिद्ध कर सकता है, जैसे “कोई भी चक्रीय समूह एबेलियन है।” यह एक लोकप्रिय परीक्षण डेटासेट (बूलक्यू) से मात्रात्मक तर्क प्रश्नों का उत्तर भी दे सकता है और छद्म कोड उत्पन्न कर सकता है।

एलुथेरएआई

ऊपर: GPT-J एक प्रमेय सिद्ध कर रहा है।

छवि क्रेडिट: EleutherAI

“[OpenAI’s] GPT-2 लगभग 1.5 बिलियन पैरामीटर था और इसका प्रदर्शन सबसे अच्छा नहीं है क्योंकि यह थोड़ा पुराना है। GPT-Neo लगभग 2.7 बिलियन पैरामीटर था लेकिन कुछ हद तक समान आकार के GPT-3 मॉडल से कम प्रदर्शन करता है। GPT-J, नया वाला, अब 6B – ओपनएआई के क्यूरी मॉडल के समान है, हमें विश्वास है, “लेही ने कहा।

आगे देख रहा

EleutherAI ने अंततः एक मॉडल को चलाने के लिए आवश्यक कोड और वज़न देने की योजना बनाई है, हालांकि समान नहीं, पूर्ण “DaVinci” GPT-3 के लिए। (वजन एक तंत्रिका नेटवर्क के भीतर पैरामीटर हैं जो इनपुट डेटा को बदलते हैं।) GPT-J की तुलना में, पूर्ण GPT-3 में 175 बिलियन पैरामीटर होते हैं और इसे 45TB डेटासेट से 499 बिलियन टोकन पर प्रशिक्षित किया गया था।

GPT-3 जैसे भाषा मॉडल अक्सर डेटा में एन्कोड किए गए पूर्वाग्रहों को बढ़ाते हैं। प्रशिक्षण डेटा का एक हिस्सा असामान्य रूप से समुदायों से प्राप्त नहीं होता है व्यापक लिंग, नस्ल और धार्मिक पूर्वाग्रह। OpenAI नोट करता है कि इससे “शरारती” या “चूसा” जैसे शब्द महिला सर्वनाम के पास और “इस्लाम” “आतंकवाद” जैसे शब्दों के पास हो सकते हैं। अन्य अध्ययनों, जैसे कि अप्रैल में इंटेल, एमआईटी, और कनाडाई इंस्टीट्यूट फॉर एडवांस्ड रिसर्च (सीआईएफएआर) के शोधकर्ताओं द्वारा प्रकाशित एक अध्ययन में, कुछ सबसे लोकप्रिय मॉडलों में उच्च स्तर के रूढ़िवादी पूर्वाग्रह पाए गए हैं।

एलुथेरएआई

ऊपर: GPT-J एक शब्द समस्या का उत्तर दे रहा है।

छवि क्रेडिट: EleutherAI

लेकिन EleutherAI ने द पाइल पर “व्यापक पूर्वाग्रह विश्लेषण” करने का दावा किया है और उन डेटासेट को बाहर करने के लिए “कठिन संपादकीय निर्णय” किए हैं जो उन्हें लगा कि कुछ समूहों या विचारों के प्रति “अस्वीकार्य रूप से नकारात्मक पक्षपाती” थे।

हालांकि EleutherAI का मॉडल अपनी क्षमताओं के मामले में अत्याधुनिक नहीं हो सकता है, लेकिन यह एक आम तकनीकी समस्या को हल करने की दिशा में एक लंबा रास्ता तय कर सकता है: अनुसंधान और इंजीनियरिंग टीमों के बीच डिस्कनेक्ट। जैसा कि हगिंग फेस के सीईओ क्लेमेंट डेलंग्यू ने हाल ही में एक साक्षात्कार में वेंचरबीट को बताया, तकनीकी दिग्गज ब्लैक-बॉक्स एनएलपी एपीआई प्रदान करते हैं, जबकि ओपन सोर्स रिपॉजिटरी भी जारी करते हैं जिनका उपयोग करना मुश्किल हो सकता है या अच्छी तरह से बनाए नहीं रखा जा सकता है। EleutherAI के प्रयास उद्यमों को NLP के व्यावसायिक मूल्य का एहसास कराने में मदद कर सकते हैं, इसके लिए उन्हें स्वयं बहुत अधिक काम करने की आवश्यकता नहीं है।

वेंचरबीट

तकनीकी निर्णय लेने वालों के लिए परिवर्तनकारी तकनीक और लेनदेन के बारे में ज्ञान हासिल करने के लिए वेंचरबीट का मिशन एक डिजिटल टाउन स्क्वायर बनना है। जब आप अपने संगठनों का नेतृत्व करते हैं तो हमारा मार्गदर्शन करने के लिए हमारी साइट डेटा तकनीकों और रणनीतियों पर आवश्यक जानकारी प्रदान करती है। हम आपको हमारे समुदाय का सदस्य बनने के लिए आमंत्रित करते हैं:

  • आपकी रुचि के विषयों पर अप-टू-डेट जानकारी
  • हमारे समाचार पत्र
  • गेटेड विचार-नेता सामग्री और हमारे बेशकीमती आयोजनों के लिए रियायती पहुंच, जैसे कि रूपांतरण 2021: और अधिक जानें
  • नेटवर्किंग सुविधाएँ, और बहुत कुछ

सदस्य बने

(Visited 8 times, 1 visits today)

About The Author

You might be interested in

स्नैकपास-ने-क्राफ्ट-वेंचर्स-के-नेतृत्व-में-400M.jpg
0

LEAVE YOUR COMMENT