मेटा ने एक एआई का अनावरण किया जो टेक्स्ट संकेतों के आधार पर वीडियो उत्पन्न करता है

हालांकि यह प्रभाव काफी कच्चा है, सिस्टम जनरेटिव आर्टिफिशियल इंटेलिजेंस के लिए आगे क्या हो रहा है, इसकी एक शुरुआती झलक पेश करता है, और यह टेक्स्ट-टू-इमेज एआई सिस्टम से अगला स्पष्ट कदम है जिसने इस साल भारी उत्साह पैदा किया है।

मेक-ए-वीडियो की मेटा की घोषणा, जो अभी तक जनता के लिए उपलब्ध नहीं कराई गई है, संभवतः अन्य एआई प्रयोगशालाओं को अपने स्वयं के संस्करण जारी करने के लिए प्रेरित करेगी। यह कुछ बड़े नैतिक प्रश्न भी उठाता है।

पिछले महीने ही, AI लैब OpenAI ने अपना नवीनतम टेक्स्ट-टू-इमेज AI सिस्टम बनाया है दाल-ई सभी के लिए उपलब्ध है, और AI स्टार्टअप Stability.AI ने एक ओपन-सोर्स टेक्स्ट-टू-इमेज सिस्टम, स्टेबल डिफ्यूजन लॉन्च किया।

लेकिन टेक्स्ट-टू-वीडियो AI कुछ और भी बड़ी चुनौतियों के साथ आता है। एक के लिए, इन मॉडलों को बड़ी मात्रा में कंप्यूटिंग शक्ति की आवश्यकता होती है। वे बड़े टेक्स्ट-टू-इमेज AI मॉडल की तुलना में और भी बड़े कम्प्यूटेशनल लिफ्ट हैं, जो प्रशिक्षित करने के लिए लाखों छवियों का उपयोग करते हैं, क्योंकि केवल एक लघु वीडियो को एक साथ रखने के लिए सैकड़ों छवियों की आवश्यकता होती है। इसका मतलब है कि यह वास्तव में केवल बड़ी तकनीकी कंपनियां हैं जो इन प्रणालियों को निकट भविष्य के लिए बनाने का जोखिम उठा सकती हैं। उन्हें प्रशिक्षित करना भी मुश्किल होता है, क्योंकि टेक्स्ट के साथ जोड़े गए उच्च-गुणवत्ता वाले वीडियो के बड़े पैमाने पर डेटा सेट नहीं होते हैं।

इसे हल करने के लिए, मेटा ने अपने मॉडल को प्रशिक्षित करने के लिए तीन ओपन-सोर्स इमेज और वीडियो डेटा सेट से डेटा को संयोजित किया। लेबल की गई स्थिर छवियों के मानक टेक्स्ट-इमेज डेटा सेट ने एआई को यह जानने में मदद की कि वस्तुओं को क्या कहा जाता है और वे कैसी दिखती हैं। और वीडियो के एक डेटाबेस ने यह जानने में मदद की कि दुनिया में उन वस्तुओं को कैसे स्थानांतरित किया जाना चाहिए। दो दृष्टिकोणों के संयोजन ने मेक-ए-वीडियो में मदद की, जिसका वर्णन गैर-सहकर्मी-समीक्षा में किया गया है पेपर आज प्रकाशित हुआबड़े पैमाने पर टेक्स्ट से वीडियो जेनरेट करें।

एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस के कंप्यूटर विजन रिसर्च साइंटिस्ट तन्मय गुप्ता का कहना है कि मेटा के नतीजे आशाजनक हैं। इसके द्वारा साझा किए गए वीडियो से पता चलता है कि कैमरा के घूमने पर मॉडल 3D आकृतियों को कैप्चर कर सकता है। मॉडल में प्रकाश की गहराई और समझ की कुछ धारणा भी है। गुप्ता कहते हैं कि कुछ विवरण और आंदोलनों को शालीनता से किया जाता है और आश्वस्त किया जाता है।

हालांकि, “अनुसंधान समुदाय में सुधार करने के लिए बहुत जगह है, खासकर अगर इन प्रणालियों का उपयोग वीडियो संपादन और पेशेवर सामग्री निर्माण के लिए किया जाना है,” वे कहते हैं। विशेष रूप से, वस्तुओं के बीच जटिल इंटरैक्शन को मॉडल करना अभी भी कठिन है।

“कैनवास पर एक कलाकार की ब्रश पेंटिंग” के संकेत से उत्पन्न वीडियो में, ब्रश कैनवास पर चलता है, लेकिन कैनवास पर स्ट्रोक यथार्थवादी नहीं होते हैं। “मैं इन मॉडलों को बातचीत का एक क्रम बनाने में सफल होते देखना पसंद करूंगा, जैसे ‘आदमी शेल्फ से एक किताब उठाता है, अपना चश्मा लगाता है, और एक कप कॉफी पीते हुए उसे पढ़ने के लिए बैठता है,” गुप्ता कहते हैं।

amar-bangla-patrika