इस AI सिस्टम ने YouTube देखकर वीडियो को समझना सीखा

अपनी एंटरप्राइज़ डेटा तकनीक और रणनीति को ऊपर उठाएं रूपांतरण 2021.


मनुष्य दुनिया में घटनाओं को प्रासंगिक रूप से समझते हैं, अतीत, वर्तमान और भविष्य के बारे में अनुमान लगाने के लिए समय-समय पर मल्टीमॉडल रीजनिंग कहलाते हैं। दिए गए पाठ और एक छवि जो अलग-अलग विचार करने पर अहानिकर लगती है – उदाहरण के लिए, “देखो कितने लोग आपसे प्यार करते हैं” और एक बंजर रेगिस्तान की तस्वीर – लोग मानते हैं कि ये तत्व संभावित रूप से हानिकारक अर्थ लेते हैं जब वे जोड़े या जुड़े होते हैं, उदाहरण के लिए .

यहां तक ​​कि सर्वश्रेष्ठ एआई सिस्टम भी इस क्षेत्र में संघर्ष करते हैं। लेकिन हाल ही में एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस और वाशिंगटन विश्वविद्यालय के पॉल जी एलन स्कूल ऑफ कंप्यूटर साइंस एंड इंजीनियरिंग की एक टीम से प्रगति हुई है। इस महीने प्रकाशित एक प्रीप्रिंट पेपर में, शोधकर्ताओं ने विस्तार से बताया मल्टीमॉडल न्यूरल स्क्रिप्ट नॉलेज मॉडल (Merlot), एक प्रणाली जो वीडियो में छवियों का शब्दों के साथ मिलान करना सीखती है और यहां तक ​​कि समय के साथ लाखों YouTube वीडियो को लिखित भाषण के साथ देखकर विश्व स्तर पर घटनाओं का पालन करना सीखती है। यह यह सब एक अनियंत्रित तरीके से करता है, जिसका अर्थ है कि वीडियो को लेबल या वर्गीकृत नहीं किया गया है – सिस्टम को वीडियो की अंतर्निहित संरचनाओं से सीखने के लिए मजबूर करता है।

वीडियो से सीखना

कॉमनसेंस रीजनिंग की हमारी क्षमता इस बात से आकार लेती है कि हम कारणों और प्रभावों का अनुभव कैसे करते हैं। शिक्षण मशीन इस प्रकार की “स्क्रिप्ट ज्ञान” एक महत्वपूर्ण चुनौती है, आंशिक रूप से इसके लिए आवश्यक डेटा की मात्रा के कारण। उदाहरण के लिए, एक रेस्तरां में भोजन करने वाले लोगों की एक तस्वीर भी जानकारी का खजाना हो सकती है, जैसे तथ्य यह है कि लोगों को बैठने से पहले रेस्तरां में जाने, मिलने और रेस्तरां में प्रवेश करने के लिए सहमत होना था।

मर्लोट YouTube वीडियो देखकर इन अवधारणाओं को आंतरिक बनाने का प्रयास करता है। बहुत सारे यूट्यूब वीडियो। 6 मिलियन वीडियो के डेटासेट पर आरेखण करते हुए, शोधकर्ताओं ने मॉडल को अलग-अलग फ़्रेमों से मिलान करने के लिए प्रशिक्षित किया, जिसमें वीडियो ट्रांसक्रिप्ट के एक प्रासंगिक प्रतिनिधित्व के साथ, खंडों में विभाजित किया गया था। डेटासेट में निर्देशात्मक वीडियो, रोज़मर्रा की घटनाओं के जीवन शैली व्लॉग और “विज्ञान” और “गृह सुधार” जैसे लोकप्रिय विषयों के लिए YouTube के ऑटो-सुझाए गए वीडियो शामिल थे, प्रत्येक को स्पष्ट रूप से वस्तुओं, कार्यों और की एक विस्तृत श्रृंखला के बारे में जानने के लिए मॉडल को प्रोत्साहित करने के लिए चुना गया था। दृश्य।

मर्लोट एआई

लक्ष्य मर्लोट को समय और बोले गए शब्दों के साथ फ्रेम-स्तरीय अभ्यावेदन को संदर्भित करने के लिए सिखाना था ताकि यह तले हुए वीडियो फ़्रेमों को फिर से व्यवस्थित कर सके और “शोर” ट्रांसक्रिप्ट की समझ बना सके – जिसमें गलत तरीके से लोअरकेस टेक्स्ट, लापता विराम चिह्न, और फिलर शब्द जैसे ” उम,” “हम्म,” और “हाँ।” शोधकर्ताओं ने इसे काफी हद तक पूरा किया। उन्होंने बताया कि गुणात्मक और मात्रात्मक परीक्षणों की एक श्रृंखला में, मर्लोट को रोज़मर्रा की घटनाओं और स्थितियों की एक मजबूत “आउट-ऑफ-द-बॉक्स” समझ थी, जिससे वह एक वीडियो से घटनाओं का एक क्रमित अनुक्रम लेने और फ्रेम को मिलान करने का आदेश देने में सक्षम था एक सुसंगत कथा में कैप्शन, जैसे कैरोसेल की सवारी करने वाले लोग।

भविष्य का कार्य

मर्लोट एआई अनुसंधान समुदाय में वीडियो समझ पर केवल नवीनतम कार्य है। 2019 में, जॉर्जिया इंस्टीट्यूट ऑफ टेक्नोलॉजी और अल्बर्टा विश्वविद्यालय के शोधकर्ताओं ने एक . बनाया प्रणाली जो वीडियो गेम के “चलो खेलते हैं” वीडियो के लिए स्वचालित रूप से कमेंट्री उत्पन्न कर सकता है। अभी हाल ही में, Microsoft . के शोधकर्ता प्रकाशित एक प्रणाली का वर्णन करने वाला एक प्रीप्रिंट पेपर जो यह निर्धारित कर सकता है कि दृश्य और पाठ्य सुराग से सीखकर वीडियो क्लिप के बारे में कथन सही थे या नहीं। और Facebook ने a . को प्रशिक्षित किया है कंप्यूटर दृष्टि प्रणाली जो सार्वजनिक रूप से उपलब्ध Facebook वीडियो से स्वचालित रूप से ऑडियो, टेक्स्ट और विज़ुअल प्रतिनिधित्व सीख सकता है।

मर्लोट एआई

ऊपर: मर्लोट वीडियो में घटनाओं के क्रम को समझ सकता है, जैसा कि यहां दिखाया गया है।

एलन इंस्टीट्यूट और वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने ध्यान दिया कि, पिछले काम की तरह, मर्लोट की सीमाएं हैं, कुछ मॉडल को प्रशिक्षित करने के लिए चुने गए डेटा के कारण। उदाहरण के लिए, मर्लोट अवांछनीय पूर्वाग्रह प्रदर्शित कर सकता था क्योंकि उसे केवल अंग्रेजी डेटा और बड़े पैमाने पर स्थानीय समाचार खंडों पर प्रशिक्षित किया गया था, जो एक में अपराध की कहानियों को कवर करने में बहुत समय व्यतीत कर सकता है। सनसनीखेज तरीका. यह “बहुत संभावना है” कि ज्यादातर समाचार सामग्री पर मर्लोट जैसे प्रशिक्षण मॉडल उन्हें नस्लवादी पैटर्न के साथ-साथ सेक्सिस्ट पैटर्न भी सीख सकते हैं, शोधकर्ताओं ने माना, यह देखते हुए कि अधिकांश देशों में सबसे लोकप्रिय YouTubers पुरुष हैं. में पढ़ता है स्थानीय समाचार देखने और अपराध के बारे में अधिक स्पष्ट, नस्लीय विश्वास रखने के बीच एक संबंध का प्रदर्शन किया है।

इन कारणों से, टीम एक उत्पादन वातावरण में मर्लोट को तैनात करने के खिलाफ सलाह देती है। लेकिन वे कहते हैं कि मॉडल अभी भी मल्टीमॉडल समझ में भविष्य के काम की दिशा में एक आशाजनक कदम है। “हम आशा करते हैं कि मर्लोट शाब्दिक कैप्शन और उनकी संबंधित छवियों से सीखने की तुलना में अधिक मानवीय फैशन में दृष्टि + भाषा प्रतिनिधित्व सीखने के लिए भविष्य के काम को प्रेरित कर सकता है,” कोउथर्स ने लिखा। “मॉडल वीडियो और स्थिर छवियों पर घटना-स्तरीय तर्क की आवश्यकता वाले कार्यों पर मजबूत प्रदर्शन प्राप्त करता है।”

वेंचरबीट

तकनीकी निर्णय लेने वालों के लिए परिवर्तनकारी तकनीक और लेनदेन के बारे में ज्ञान हासिल करने के लिए वेंचरबीट का मिशन एक डिजिटल टाउन स्क्वायर बनना है। जब आप अपने संगठनों का नेतृत्व करते हैं तो हमारा मार्गदर्शन करने के लिए हमारी साइट डेटा तकनीकों और रणनीतियों पर आवश्यक जानकारी प्रदान करती है। हम आपको हमारे समुदाय का सदस्य बनने के लिए आमंत्रित करते हैं:

  • आपकी रुचि के विषयों पर अप-टू-डेट जानकारी
  • हमारे समाचार पत्र
  • गेटेड विचार-नेता सामग्री और हमारे बेशकीमती आयोजनों के लिए रियायती पहुंच, जैसे रूपांतरण 2021: और अधिक जानें
  • नेटवर्किंग सुविधाएँ, और बहुत कुछ

सदस्य बने

(Visited 4 times, 1 visits today)

About The Author

You might be interested in

LEAVE YOUR COMMENT