मेटा ने मेक-ए-वीडियो की घोषणा की, जो टेक्स्ट से वीडियो बनाता है [Updated]

चित्र को चित्रित करते हुए एक टेडी बियर के एआई-जनित वीडियो से स्थिर छवि।
बड़े आकार में / चित्र को चित्रित करते हुए एक टेडी बियर के एआई-जनित वीडियो से स्थिर छवि।

आज, मेटा ने घोषणा की वीडियो बनाओएक एआई-पावर्ड वीडियो जनरेटर जो मौजूदा इमेज सिंथेसिस टूल जैसे टेक्स्ट या इमेज प्रॉम्प्ट से उपन्यास वीडियो सामग्री बना सकता है दाल-ई तथा स्थिर प्रसार. यह मौजूदा वीडियो के रूपांतर भी कर सकता है, हालांकि यह अभी तक सार्वजनिक उपयोग के लिए उपलब्ध नहीं है।

मेक-ए-वीडियो के घोषणा पृष्ठ पर, मेटा टेक्स्ट से उत्पन्न उदाहरण वीडियो दिखाता है, जिसमें “भारी बारिश में चलने वाला एक युवा जोड़ा” और “एक टेडी बियर एक चित्र चित्रित करता है।” यह मेक-ए-वीडियो की स्थिर स्रोत छवि लेने और उसे चेतन करने की क्षमता को भी प्रदर्शित करता है। उदाहरण के लिए, एआई मॉडल के माध्यम से संसाधित होने के बाद, समुद्री कछुए की एक स्थिर तस्वीर तैरती हुई दिखाई दे सकती है।

मेक-ए-वीडियो के पीछे की प्रमुख तकनीक — और यह इतनी जल्दी क्यों आ गई है कुछ विशेषज्ञ प्रत्याशित- यह है कि यह OpenAI के DALL-E जैसे छवि जनरेटर के साथ उपयोग किए जाने वाले टेक्स्ट-टू-इमेज संश्लेषण के साथ मौजूदा कार्य का निर्माण करता है। जुलाई में, मेटा ने अपने स्वयं के टेक्स्ट-टू-इमेज एआई मॉडल की घोषणा की जिसे कहा जाता है तमाशा बनाओ.

लेबल किए गए वीडियो डेटा पर मेक-ए-वीडियो मॉडल को प्रशिक्षित करने के बजाय (उदाहरण के लिए, दर्शाए गए कार्यों का कैप्शन विवरण), मेटा ने इसके बजाय छवि संश्लेषण डेटा (अभी भी कैप्शन के साथ प्रशिक्षित छवियां) लिया और बिना लेबल वाले वीडियो प्रशिक्षण डेटा को लागू किया ताकि मॉडल सीख सके समय और स्थान में टेक्स्ट या इमेज प्रॉम्प्ट कहां मौजूद हो सकता है, इसका बोध। फिर यह भविष्यवाणी कर सकता है कि छवि के बाद क्या आता है और थोड़े समय के लिए दृश्य को गति में प्रदर्शित करता है।

“फ़ंक्शन-संरक्षण परिवर्तनों का उपयोग करके, हम अस्थायी जानकारी को शामिल करने के लिए मॉडल प्रारंभिक चरण में स्थानिक परतों का विस्तार करते हैं, ” मेटा ने एक में लिखा था सफ़ेद कागज. “विस्तारित स्थानिक-अस्थायी नेटवर्क में नए ध्यान मॉड्यूल शामिल हैं जो वीडियो के संग्रह से अस्थायी दुनिया की गतिशीलता सीखते हैं।”

मेटा ने इस बारे में कोई घोषणा नहीं की है कि मेक-ए-वीडियो जनता के लिए कैसे या कब उपलब्ध हो सकता है या इसकी पहुंच किसके पास होगी। मेटा प्रदान करता है साइन-अप फॉर्म लोग इसे भर सकते हैं यदि वे भविष्य में इसे आजमाने में रुचि रखते हैं।

मेटा स्वीकार करता है कि मांग पर फोटोरिअलिस्टिक वीडियो बनाने की क्षमता कुछ सामाजिक खतरों को प्रस्तुत करती है। घोषणा पृष्ठ के निचले भाग में, मेटा का कहना है कि मेक-ए-वीडियो से सभी एआई-जनित वीडियो सामग्री में एक वॉटरमार्क होता है, “दर्शकों को यह सुनिश्चित करने में मदद करने के लिए कि वीडियो एआई के साथ बनाया गया था और यह कैप्चर किया गया वीडियो नहीं है।”

यदि इतिहास कोई मार्गदर्शक है, प्रतिस्पर्द्धी ओपन सोर्स टेक्स्ट-टू-वीडियो मॉडल अनुसरण कर सकते हैं (कुछ, जैसे कॉगवीडियोपहले से मौजूद है), जो मेटा के वॉटरमार्क सुरक्षा को अप्रासंगिक बना सकता है।

अद्यतन: कल एआई न्यूज में व्यस्त दिन था। मेक-ए-वीडियो के अलावा, एक अन्य टेक्स्ट-टू-वीडियो मॉडल कहा जाता है फेनाकी उभरा, और यह स्पष्ट रूप से कम रिज़ॉल्यूशन पर विस्तृत टेक्स्ट संकेतों से कई मिनट के लंबे वीडियो बना सकता है। इसके लेखक एक अंधी प्रस्तुत करने की प्रक्रिया के कारण अभी के लिए गुमनाम हैं आईसीएलआरलेकिन तुम कर सकते हो इसका श्वेतपत्र पढ़ें ऑनलाइन। साथ ही, एक नए टेक्स्ट-टू-3D मॉडल का एक सिंहावलोकन जिसे . कहा जाता है ड्रीमफ्यूजन शुरुआत की, Google के कई शोधकर्ताओं का उत्पाद।

इस बीच, एआई शोधकर्ता साइमन विलिसन ने मेटा के मेक-ए-वीडियो मॉडल को प्रशिक्षित करने के लिए उपयोग किए गए डेटा सेट की जांच की और की खोज की कि उसने बिना अनुमति के शटरस्टॉक से स्क्रैप किए गए 10 मिलियन से अधिक वीडियो का उपयोग किया, और एंडी बाओ ध्यान दिया कि 3.3 मिलियन अतिरिक्त वीडियो YouTube से आए। विलिसन भी एक साइट बनाई जो आपको वीडियो डेटा सेट के माध्यम से खोजने की अनुमति देता है, और Andy Baio ने कुछ लिखा नैतिक टिप्पणी “गैर-व्यावसायिक” शैक्षणिक अनुसंधान में वाणिज्यिक मीडिया का उपयोग करने के अभ्यास पर जो तब वाणिज्यिक एआई उत्पादों में बेक हो जाता है।

amar-bangla-patrika