OpenAI का AI मॉडल स्वचालित रूप से भाषण को पहचानता है और उसका अंग्रेजी में अनुवाद करता है

नीले रंग की पृष्ठभूमि पर एक गुलाबी तरंग, काव्यात्मक रूप से ऑडियो का सुझाव दे रही है।

बेंज एडवर्ड्स / एआरएस टेक्नीका

बुधवार को, OpenAI ने एक नया ओपन सोर्स AI मॉडल जारी किया, जिसका नाम है फुसफुसाना जो ऑडियो को उस स्तर पर पहचानता और अनुवाद करता है जो मानव पहचान क्षमता तक पहुंचता है। यह इंटरव्यू, पोडकास्ट, बातचीत आदि को ट्रांसक्रिप्ट कर सकता है।

ओपनएआई प्रशिक्षित कानाफूसी वेब से लगभग 10 भाषाओं में 680,000 घंटे के ऑडियो डेटा और मेल खाने वाले टेपों पर एकत्र किया गया। OpenAI के अनुसार, इस खुले-संग्रह दृष्टिकोण ने “उच्चारण, पृष्ठभूमि शोर और तकनीकी भाषा में सुधार की मजबूती” को जन्म दिया है। यह बोली जाने वाली भाषा का भी पता लगा सकता है और इसका अंग्रेजी में अनुवाद कर सकता है।

OpenAI व्हिस्पर को एक के रूप में वर्णित करता है एनकोडर-डिकोडर ट्रांसफार्मर, एक प्रकार का तंत्रिका नेटवर्क जो इनपुट डेटा से प्राप्त संदर्भ का उपयोग संघों को सीखने के लिए कर सकता है जिसे तब मॉडल के आउटपुट में अनुवादित किया जा सकता है। OpenAI व्हिस्पर के संचालन का यह अवलोकन प्रस्तुत करता है:

इनपुट ऑडियो को 30-सेकंड के विखंडू में विभाजित किया जाता है, एक लॉग-मेल स्पेक्ट्रोग्राम में परिवर्तित किया जाता है, और फिर एक एनकोडर में पारित किया जाता है। एक डिकोडर को संबंधित टेक्स्ट कैप्शन की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है, विशेष टोकन के साथ इंटरमिक्स किया जाता है जो एकल मॉडल को भाषा पहचान, वाक्यांश-स्तरीय टाइमस्टैम्प, बहुभाषी भाषण ट्रांसक्रिप्शन और टू-इंग्लिश स्पीच ट्रांसलेशन जैसे कार्यों को करने के लिए निर्देशित करता है।

ओपन-सोर्सिंग व्हिस्पर द्वारा, ओपनएआई एक नया फाउंडेशन मॉडल पेश करने की उम्मीद करता है जिसे अन्य भविष्य में भाषण प्रसंस्करण और एक्सेसिबिलिटी टूल्स में सुधार के लिए बना सकते हैं। OpenAI का इस मोर्चे पर एक महत्वपूर्ण ट्रैक रिकॉर्ड है। जनवरी 2021 में, OpenAI ने जारी किया क्लिपएक ओपन सोर्स कंप्यूटर विज़न मॉडल जिसने हाल के युग में तेजी से प्रगति करने वाली छवि संश्लेषण तकनीक जैसे कि DALL-E 2 और स्थिर प्रसार.

Ars Technica में, हमने कोड से कानाफूसी का परीक्षण किया GitHub पर उपलब्ध है, और हमने इसे कई नमूने दिए, जिसमें एक पॉडकास्ट एपिसोड और एक टेलीफोन साक्षात्कार से लिए गए ऑडियो का विशेष रूप से कठिन-से-समझने वाला खंड शामिल है। हालांकि मानक इंटेल डेस्कटॉप सीपीयू के माध्यम से चलने में कुछ समय लगा (तकनीक अभी तक वास्तविक समय में काम नहीं करती है), व्हिस्पर ने प्रदर्शन पायथन प्रोग्राम के माध्यम से ऑडियो को टेक्स्ट में ट्रांसक्रिप्ट करने का अच्छा काम किया- कुछ एआई-संचालित से कहीं बेहतर ऑडियो ट्रांसक्रिप्शन सेवाओं को हमने अतीत में आजमाया है।

OpenAI के व्हिस्पर प्रदर्शन कार्यक्रम से उदाहरण कंसोल आउटपुट क्योंकि यह पॉडकास्ट को ट्रांसक्रिप्ट करता है।
बड़े आकार में / OpenAI के व्हिस्पर प्रदर्शन कार्यक्रम से उदाहरण कंसोल आउटपुट क्योंकि यह पॉडकास्ट को ट्रांसक्रिप्ट करता है।

बेंज एडवर्ड्स / एआरएस टेक्नीका

उचित सेटअप के साथ, व्हिस्पर का उपयोग आसानी से साक्षात्कार, पॉडकास्ट, और संभावित रूप से गैर-अंग्रेज़ी भाषाओं में उत्पादित पॉडकास्ट को आपकी मशीन पर अंग्रेजी में अनुवाद करने के लिए किया जा सकता है-मुफ्त में। यह एक शक्तिशाली संयोजन है जो अंततः ट्रांसक्रिप्शन उद्योग को बाधित कर सकता है।

इन दिनों लगभग हर बड़े नए AI मॉडल की तरह, Whisper सकारात्मक लाभ और दुरुपयोग की संभावना लाता है। कानाफूसी पर मॉडल कार्ड (“व्यापक प्रभाव” खंड के तहत), ओपनएआई ने चेतावनी दी है कि व्हिस्पर का उपयोग निगरानी को स्वचालित करने या बातचीत में व्यक्तिगत वक्ताओं की पहचान करने के लिए किया जा सकता है, लेकिन कंपनी को उम्मीद है कि इसका उपयोग “मुख्य रूप से लाभकारी उद्देश्यों के लिए” किया जाएगा।

amar-bangla-patrika