Microsoft और Nvidia दुनिया के सबसे बड़े भाषा मॉडलों में से एक को प्रशिक्षित करने के लिए टीम बनाते हैं

NS ट्रांसफॉर्म टेक्नोलॉजी समिट्स 13 अक्टूबर से लो-कोड/नो कोड के साथ शुरू होती हैं: एंटरप्राइज एजिलिटी को सक्षम करना। अभी पंजीकरण करें!


माइक्रोसॉफ्ट और एनवीडिया ने आज घोषणा की कि उन्होंने जो दावा किया है वह अब तक का सबसे बड़ा और सबसे सक्षम एआई-पावर्ड भाषा मॉडल है: मेगाट्रॉन-ट्यूरिंग नेचुरल लैंग्वेज जेनरेशन (एमटी-एनएलपी)। कंपनियों के ट्यूरिंग एनएलजी 17 बी और मेगाट्रॉन-एलएम मॉडल के उत्तराधिकारी, एमटी-एनएलपी में 530 बिलियन पैरामीटर शामिल हैं और प्राकृतिक भाषा कार्यों के एक व्यापक सेट में “बेजोड़” सटीकता प्राप्त करते हैं, माइक्रोसॉफ्ट और एनवीडिया कहते हैं – पढ़ने की समझ, कॉमन्सेंस रीजनिंग और प्राकृतिक भाषा अनुमान।

“आज हमने जो गुणवत्ता और परिणाम प्राप्त किए हैं, वे प्राकृतिक भाषा में एआई के पूर्ण वादे को पूरा करने की दिशा में एक बड़ा कदम है। डीपस्पीड और मेगाट्रॉन-एलएम के इनोवेशन से मौजूदा और भविष्य के एआई मॉडल के विकास को फायदा होगा और बड़े एआई मॉडल को सस्ता और प्रशिक्षित करने में तेजी आएगी।” ब्लॉग भेजा. “हम आगे देखते हैं कि कैसे एमटी-एनएलजी कल के उत्पादों को आकार देगा और समुदाय को प्राकृतिक भाषा प्रसंस्करण (एनएलपी) की सीमाओं को और आगे बढ़ाने के लिए प्रेरित करेगा। यात्रा लंबी है और पूरी नहीं हुई है, लेकिन जो संभव है और जो आगे है, उससे हम उत्साहित हैं।”

बड़े पैमाने पर भाषा मॉडल का प्रशिक्षण

मशीन लर्निंग में, पैरामीटर उस मॉडल का हिस्सा होते हैं जो ऐतिहासिक प्रशिक्षण डेटा से सीखा जाता है। सामान्यतया, भाषा क्षेत्र में, मापदंडों की संख्या और परिष्कार के बीच संबंध उल्लेखनीय रूप से अच्छा रहा है। बड़ी संख्या में मापदंडों, अधिक डेटा और अधिक प्रशिक्षण समय वाले भाषा मॉडल को भाषा की एक समृद्ध, अधिक बारीक समझ हासिल करने के लिए दिखाया गया है, उदाहरण के लिए पुस्तकों को सारांशित करने और यहां तक ​​कि प्रोग्रामिंग कोड को पूरा करने की क्षमता प्राप्त करना।

माइक्रोसॉफ्ट एनवीडिया एमटी-एनएलपी

एमटी-एनएलजी को प्रशिक्षित करने के लिए, माइक्रोसॉफ्ट और एनवीडिया का कहना है कि उन्होंने अंग्रेजी भाषा की वेबसाइटों से 270 अरब टोकन के साथ एक प्रशिक्षण डेटासेट बनाया है। टोकन, पाठ के टुकड़ों को प्राकृतिक भाषा में छोटी इकाइयों में अलग करने का एक तरीका, शब्द, वर्ण या शब्दों के भाग हो सकते हैं। सभी एआई मॉडलों की तरह, एमटी-एनएलपी को व्याकरणिक और वाक्य-रचना संबंधी नियमों जैसे डेटा बिंदुओं के बीच पैटर्न सीखने के लिए उदाहरणों के एक सेट को अंतर्ग्रहण करके “प्रशिक्षित” करना था।

डेटासेट मोटे तौर पर द पाइल से आया है, जो ओपन सोर्स एआई शोध प्रयास EleutherAI द्वारा बनाए गए 22 छोटे डेटासेट का 835GB संग्रह है। पाइल अकादमिक स्रोतों (जैसे, आर्क्सिव, पबमेड), समुदायों (स्टैकएक्सचेंज, विकिपीडिया), कोड रिपॉजिटरी (जीथब), और बहुत कुछ फैलाता है, जिसे माइक्रोसॉफ्ट और एनवीडिया कहते हैं कि उन्होंने कॉमन क्रॉल के फ़िल्टर किए गए स्नैपशॉट के साथ क्यूरेट किया और संयुक्त किया, जिसका एक बड़ा संग्रह समाचारों और सोशल मीडिया पोस्ट सहित वेबपेज।

माइक्रोसॉफ्ट एनवीडिया एमटी-एनएलपी

ऊपर: एमटी-एनएलपी को प्रशिक्षित करने के लिए इस्तेमाल किया जाने वाला डेटा।

प्रशिक्षण 560 एनवीडिया डीजीएक्स ए100 सर्वरों पर हुआ, जिनमें से प्रत्येक में 8 एनवीडिया ए100 80 जीबी जीपीयू थे।

जब बेंचमार्क किया जाता है, तो माइक्रोसॉफ्ट का कहना है कि एमटी-एनएलपी बुनियादी गणितीय कार्यों का अनुमान लगा सकता है, भले ही प्रतीक “बुरी तरह से अस्पष्ट” हों। हालांकि यह बेहद सटीक नहीं है, ऐसा लगता है कि मॉडल अंकगणित के लिए याद रखने से परे है और ऐसे प्रश्नों को पूरा करने का प्रबंधन करता है जो इसे उत्तर के लिए प्रेरित करते हैं, एनएलपी में एक बड़ी चुनौती है।

यह अच्छी तरह से स्थापित है कि एमटी-एनएलपी जैसे मॉडल डेटा में पूर्वाग्रहों को बढ़ा सकते हैं जिस पर उन्हें प्रशिक्षित किया गया था, और वास्तव में, माइक्रोसॉफ्ट और एनवीडिया स्वीकार करते हैं कि मॉडल “रूढ़ियों और पूर्वाग्रहों को उठाता है [training] आंकड़े।” ऐसा शायद इसलिए है क्योंकि डेटासेट का एक हिस्सा उन समुदायों से लिया गया था जिनके पास व्यापक लिंग, जाति, शारीरिक, और धार्मिक पूर्वाग्रहों को, जिनका उपचार पूरी तरह से संबोधित नहीं कर सकता है।

में एक पेपर, मिडिलबरी इंस्टीट्यूट ऑफ इंटरनेशनल स्टडीज सेंटर ऑन टेररिज्म, एक्सट्रीमिज्म, एंड काउंटरटेरिज्म का दावा है कि GPT-3 और इसी तरह के मॉडल “सूचनात्मक” और “प्रभावशाली” पाठ उत्पन्न कर सकते हैं जो लोगों को दूर-दराज़ चरमपंथी विचारधाराओं और व्यवहारों में कट्टरपंथी बना सकते हैं। जॉर्ज टाउन विश्वविद्यालय के एक समूह ने गलत सूचना उत्पन्न करने के लिए GPT-3 का उपयोग किया है, जिसमें एक झूठी कथा के इर्द-गिर्द की कहानियां, एक फर्जी परिप्रेक्ष्य को आगे बढ़ाने के लिए लेख बदल दिए गए हैं, और दुष्प्रचार के विशेष बिंदुओं पर ट्वीट किए गए हैं। अन्य अध्ययनों, जैसे कि अप्रैल में इंटेल, एमआईटी और कनाडाई एआई पहल सीआईएफएआर शोधकर्ताओं द्वारा प्रकाशित एक में, कुछ सबसे लोकप्रिय ओपन सोर्स मॉडल से उच्च स्तर के रूढ़िवादी पूर्वाग्रह पाए गए हैं, जिनमें शामिल हैं गूगल का बर्ट तथा एक्सएलनेट तथा फेसबुक का रॉबर्टा.

माइक्रोसॉफ्ट और एनवीडिया का दावा है कि वे “पता करने पर काम करने के लिए प्रतिबद्ध हैं” [the] समस्या” और “मॉडल के पूर्वाग्रह को मापने में मदद करने के लिए निरंतर अनुसंधान” को प्रोत्साहित करें। वे यह भी कहते हैं कि उत्पादन में मेगाट्रॉन-ट्यूरिंग के किसी भी उपयोग को “यह सुनिश्चित करना चाहिए कि उपयोगकर्ताओं को संभावित नुकसान को कम करने और कम करने के लिए उचित उपाय किए गए हैं” और माइक्रोसॉफ्ट के में उल्लिखित सिद्धांतों का पालन करें जिम्मेदार एआई सिद्धांत.

“हम ऐसे समय में रहते हैं जहां एआई प्रगति मूर के कानून से काफी दूर है। हम देखते हैं कि GPU की नई पीढ़ी के साथ अधिक गणना शक्ति उपलब्ध कराई जा रही है, जो बिजली की गति से परस्पर जुड़ी हुई है। साथ ही, हम एआई मॉडल के हाइपरस्केलिंग को देखना जारी रखते हैं, जिससे बेहतर प्रदर्शन होता है, जिसका कोई अंत नहीं दिखता है, ”खारिया और अल्वी ने जारी रखा। “इन दो प्रवृत्तियों को एक साथ मिलाने से सॉफ्टवेयर नवाचार होते हैं जो अनुकूलन और दक्षता की सीमाओं को आगे बढ़ाते हैं।”

बड़े मॉडल की लागत

एमटी-एनएलपी, एआई21 लैब्स जैसी परियोजनाएं’ जुरासिक-1, हुआवेई का पंगु-अल्फा, नावेर की हाइपरक्लोवा, और बीजिंग एकेडमी ऑफ आर्टिफिशियल इंटेलिजेंस वू दाओ 2.0 अकादमिक दृष्टिकोण से प्रभावशाली हैं, लेकिन उन्हें बनाना सस्ता नहीं है। उदाहरण के लिए, OpenAI के GPT-3 के लिए प्रशिक्षण डेटासेट – दुनिया के सबसे बड़े भाषा मॉडल में से एक – आकार में 45 टेराबाइट्स था, जो 90 500GB हार्ड ड्राइव को भरने के लिए पर्याप्त था।

एक के अनुसार, 2017 और 2019 के बीच एआई प्रशिक्षण लागत में 100 गुना गिरावट आई है स्रोत, लेकिन योग अभी भी अधिकांश स्टार्टअप के कंप्यूट बजट से अधिक है। असमानता छोटे समय के उद्यमियों की कीमत पर संसाधनों तक असाधारण पहुंच के साथ निगमों का पक्ष लेती है, जो मौजूदा लाभों को मजबूत करती है।

उदाहरण के लिए, OpenAI के GPT-3 को प्रशिक्षण के दौरान अनुमानित 3.1423 फ्लोटिंग पॉइंट ऑपरेशंस प्रति सेकंड (FLOPS) गणना की आवश्यकता होती है। कंप्यूटर विज्ञान में, FLOPS कच्चे प्रसंस्करण प्रदर्शन का एक उपाय है जो आमतौर पर विभिन्न प्रकार के हार्डवेयर की तुलना करने के लिए उपयोग किया जाता है। यह मानते हुए कि OpenAI ने 28 टेराफ्लॉप्स – 28 ट्रिलियन फ्लोटिंग पॉइंट ऑपरेशंस प्रति सेकंड – Nvidia V100 GPU के एक बैंक में गणना की है, क्लाउड सेवाओं के माध्यम से उपलब्ध एक सामान्य GPU है, यह एकल प्रशिक्षण रन के लिए $ 4.6 मिलियन लेगा। 15 टेराफ्लॉप कंप्यूट के साथ एक एनवीडिया आरटीएक्स 8000 जीपीयू काफी सस्ता होगा – लेकिन प्रशिक्षण समाप्त करने में 665 साल लगेंगे।

एक सिंक किया गया रिपोर्ट good अनुमान है कि वाशिंगटन विश्वविद्यालय के शोधकर्ताओं द्वारा विकसित एक नकली समाचार का पता लगाने के मॉडल को प्रशिक्षित करने के लिए $ 25,000 का खर्च आया, और Google ने एक भाषा मॉडल को प्रशिक्षित करने के लिए लगभग $ 6,912 खर्च किए। बर्ट कि यह Google खोज परिणामों की गुणवत्ता में सुधार करता था। टेराबाइट – या पेटाबाइट – स्केल पर डेटासेट के साथ काम करते समय भंडारण लागत भी तेजी से बढ़ जाती है। एक चरम उदाहरण लेने के लिए, टेस्ला की सेल्फ-ड्राइविंग टीम द्वारा जमा किए गए डेटासेट में से एक – 1.5 पेटाबाइट वीडियो फुटेज – तीन महीने के लिए Azure में स्टोर करने के लिए $ 67,500 से अधिक खर्च होंगे, अनुसार क्राउडस्टोरेज को।

एआई और मशीन लर्निंग मॉडल प्रशिक्षण के प्रभाव पर्यावरण पर को भी राहत मिली है। जून 2020 में, एमहर्स्ट में मैसाचुसेट्स विश्वविद्यालय के शोधकर्ताओं ने एक रिपोर्ट जारी की जिसमें अनुमान लगाया गया था कि एक निश्चित मॉडल के प्रशिक्षण और खोज के लिए आवश्यक शक्ति की मात्रा में लगभग उत्सर्जन शामिल है 626,000 पाउंड कार्बन डाइऑक्साइड, औसत अमेरिकी कार के जीवन भर के उत्सर्जन के लगभग 5 गुना के बराबर। ओपनएआई ने खुद स्वीकार किया है कि कोडेक्स जैसे मॉडलों को बड़ी मात्रा में गणना की आवश्यकता होती है – प्रति दिन सैकड़ों पेटाफ्लॉप्स के क्रम में – जो कार्बन उत्सर्जन में योगदान देता है।

अच्छी खबर यह है कि पिछले कुछ वर्षों में FLOPS और बेसिक मशीन लर्निंग ऑपरेशंस की लागत कम हो रही है। एक 2020 ओपनएआई सर्वेक्षण पाया गया कि 2012 के बाद से, एक लोकप्रिय बेंचमार्क – इमेजनेट – में छवियों को वर्गीकृत करने के लिए एक मॉडल को समान प्रदर्शन के लिए प्रशिक्षित करने के लिए आवश्यक गणना की मात्रा हर 16 महीने में दो के कारक से घट रही है। अन्य हाल ही में किए गए अनुसंधान यह सुझाव देता है कि बड़े भाषा मॉडल हमेशा छोटे मॉडलों की तुलना में अधिक जटिल नहीं होते हैं, जो उन्हें प्रशिक्षित करने के लिए उपयोग की जाने वाली तकनीकों पर निर्भर करता है।

कॉर्नेल विश्वविद्यालय में एक प्राकृतिक भाषा प्रसंस्करण शोधकर्ता और डेटा वैज्ञानिक मारिया एंटोनियाक का कहना है कि जब प्राकृतिक भाषा की बात आती है, तो यह एक खुला प्रश्न है कि क्या बड़े मॉडल सही दृष्टिकोण हैं। जबकि आज कुछ बेहतरीन बेंचमार्क प्रदर्शन स्कोर बड़े डेटासेट और मॉडल से आते हैं, मॉडल में भारी मात्रा में डेटा डंप करने से भुगतान अनिश्चित है।

“क्षेत्र की वर्तमान संरचना कार्य-केंद्रित है, जहां समुदाय विशिष्ट डेटासेट पर विशिष्ट समस्याओं को हल करने का प्रयास करने के लिए एक साथ इकट्ठा होता है,” एंटोनियाक ने वेंचरबीट को एक में बताया पिछला साक्षात्कार. “ये कार्य आमतौर पर बहुत संरचित होते हैं और उनकी अपनी कमजोरियां हो सकती हैं, इसलिए जब वे हमारे क्षेत्र को कुछ तरीकों से आगे बढ़ने में मदद करते हैं, तो वे हमें बाधित भी कर सकते हैं। बड़े मॉडल इन कार्यों पर अच्छा प्रदर्शन करते हैं, लेकिन क्या ये कार्य अंततः हमें किसी वास्तविक भाषा समझ की ओर ले जा सकते हैं, यह बहस का विषय है।”

वेंचरबीट

तकनीकी निर्णय लेने वालों के लिए परिवर्तनकारी तकनीक और लेनदेन के बारे में ज्ञान हासिल करने के लिए वेंचरबीट का मिशन एक डिजिटल टाउन स्क्वायर बनना है। जब आप अपने संगठनों का नेतृत्व करते हैं तो हमारा मार्गदर्शन करने के लिए हमारी साइट डेटा तकनीकों और रणनीतियों पर आवश्यक जानकारी प्रदान करती है। हम आपको हमारे समुदाय का सदस्य बनने के लिए आमंत्रित करते हैं:

  • आपकी रुचि के विषयों पर अप-टू-डेट जानकारी
  • हमारे समाचार पत्र
  • गेटेड विचार-नेता सामग्री और हमारे बेशकीमती आयोजनों के लिए रियायती पहुंच, जैसे रूपांतरण 2021: और अधिक जानें
  • नेटवर्किंग सुविधाएँ, और बहुत कुछ

सदस्य बने

(Visited 3 times, 1 visits today)

About The Author

You might be interested in

LEAVE YOUR COMMENT