AI की अगली पीढ़ी के लिए तैयार हो जाइए

प्रत्येक सोमवार को अपने इनबॉक्स में एल्गोरिथम प्राप्त करने के लिए,पंजी यहॉ करे.

एल्गोरिदम में आपका स्वागत है!

क्या किसी और को चक्कर आ रहा है? जिस समय एआई समुदाय टेक्स्ट-टू-इमेज सिस्टम की आश्चर्यजनक प्रगति के इर्द-गिर्द अपना सिर लपेट रहा था, हम पहले से ही अगली सीमा पर जा रहे हैं: टेक्स्ट-टू-वीडियो।

पिछले हफ्ते के अंत में, मेटा ने मेक-ए-वीडियो का अनावरण किया, एक एआई जो टेक्स्ट प्रॉम्प्ट से पांच सेकंड के वीडियो उत्पन्न करता है।

ओपन-सोर्स पर निर्मितडेटा सेटमेक-ए-वीडियो आपको शब्दों की एक स्ट्रिंग में टाइप करने देता है, जैसे “एक कुत्ता एक सुपर हीरो पोशाक पहने हुए एक लाल टोपी के साथ आकाश में उड़ता है,” और फिर एक क्लिप बनाता है, जो बहुत सटीक होने पर, एक ट्रिपी का सौंदर्यशास्त्र है पुराने घर का वीडियो।

विकास जनरेटिव एआई में एक सफलता है जो कुछ कठिन नैतिक प्रश्न भी उठाता है। टेक्स्ट प्रॉम्प्ट से वीडियो बनाना छवियों को बनाने की तुलना में बहुत अधिक चुनौतीपूर्ण और महंगा है, और यह प्रभावशाली है कि मेटा इसे इतनी जल्दी करने का एक तरीका लेकर आया है। लेकिन जैसे-जैसे तकनीक विकसित होती है, ऐसी आशंकाएं होती हैं कि गलत सूचना बनाने और प्रसारित करने के लिए इसे एक शक्तिशाली उपकरण के रूप में इस्तेमाल किया जा सकता है। आप इसके बारे में मेरी कहानी पढ़ सकते हैंयहां.

इसकी घोषणा के कुछ ही दिन बाद, मेटा का सिस्टम पहले से ही थोड़े बुनियादी दिखने लगा है।यह प्रमुख एआई सम्मेलनों में से एक, लर्निंग रिप्रेजेंटेशन पर अंतर्राष्ट्रीय सम्मेलन में कागजात में प्रस्तुत कई टेक्स्ट-टू-वीडियो मॉडल में से एक है।

एक और, कहा जाता हैफेनाकीऔर भी उन्नत है।

यह अकेले टेक्स्ट प्रॉम्प्ट के बजाय स्टिल इमेज और प्रॉम्प्ट से वीडियो जेनरेट कर सकता है। यह बहुत लंबी क्लिप भी बना सकता है: उपयोगकर्ता वीडियो के लिए स्क्रिप्ट बनाने वाले कई अलग-अलग संकेतों के आधार पर कई मिनट लंबे वीडियो बना सकते हैं। (उदाहरण के लिए: “सैन फ्रांसिस्को में समुद्र में एक फोटोरिअलिस्टिक टेडी बियर तैर रहा है। टेडी बियर पानी के नीचे चला जाता है। टेडी बियर रंगीन मछलियों के साथ पानी के नीचे तैरता रहता है। एक पांडा भालू पानी के नीचे तैर रहा है।”)

teddy bear 2
फेनाकी द्वारा निर्मित वीडियो।

इस तरह की तकनीक फिल्म निर्माण और एनिमेशन में क्रांति ला सकती है।यह स्पष्ट रूप से आश्चर्यजनक है कि यह कितनी जल्दी हुआ। DALL-E को पिछले साल ही लॉन्च किया गया था। यह सोचना बेहद रोमांचक और थोड़ा भयावह है कि हम अगले साल इस बार कहां होंगे।

Google के शोधकर्ताओं ने अपने नए मॉडल के बारे में सम्मेलन में एक पेपर भी प्रस्तुत किया जिसे कहा जाता हैड्रीमफ्यूजन, जो पाठ संकेतों के आधार पर 3D चित्र बनाता है। 3D मॉडल को किसी भी कोण से देखा जा सकता है, प्रकाश व्यवस्था को बदला जा सकता है, और मॉडल को किसी भी 3D वातावरण में रखा जा सकता है।

उम्मीद न करें कि आपको जल्द ही इन मॉडलों के साथ खेलने को मिलेगा।मेटा अभी तक मेक-ए-वीडियो को जनता के लिए जारी नहीं कर रहा है। यह तो अच्छी बात है। मेटा के मॉडल को उसी ओपन-सोर्स इमेज-डेटा सेट का उपयोग करके प्रशिक्षित किया जाता है जो स्टेबल डिफ्यूजन के पीछे था। कंपनी का कहना है कि उसने जहरीली भाषा और NSFW छवियों को फ़िल्टर किया है, लेकिन इसकी कोई गारंटी नहीं है कि जब डेटा सेट में लाखों और लाखों नमूने होते हैं, तो उन्होंने मानवीय अप्रियता की सभी बारीकियों को पकड़ लिया होगा। और कंपनी के पास वास्तव में एक तारकीय ट्रैक रिकॉर्ड नहीं है, जब वह अपने द्वारा बनाए गए सिस्टम से होने वाले नुकसान को कम करने के लिए, इसे हल्के ढंग से रखने के लिए आता है।

फेराकी के रचनाकार अपने में लिखते हैंकागज़जबकि उनके मॉडल द्वारा निर्मित वीडियो अभी भी वास्तविक लोगों से गुणवत्ता में अप्रभेद्य नहीं हैं, यह “आज भी संभावना के दायरे में है।” मॉडल के रचनाकारों का कहना है कि अपने मॉडल को जारी करने से पहले, वे डेटा की बेहतर समझ प्राप्त करना चाहते हैं, आउटपुट को फ़िल्टर करना और फ़िल्टर करना और नुकसान को कम करने के लिए पूर्वाग्रहों को मापना चाहते हैं।

यह जानना कठिन और कठिन होता जा रहा है कि ऑनलाइन वास्तविक क्या है, और वीडियो एआई कई अनूठे खतरों को खोलता है जो ऑडियो और छवियों से नहीं होते हैं, जैसे कि टर्बो-चार्ज डीपफेक की संभावना। टिकटॉक और इंस्टाग्राम जैसे प्लेटफॉर्म पहले से ही हैंवास्तविकता की हमारी भावना को विकृत करनासंवर्धित चेहरे के फिल्टर के माध्यम से। एआई-जनरेटेड वीडियो गलत सूचना के लिए एक शक्तिशाली उपकरण हो सकता है, क्योंकि लोगों में एक ही सामग्री के नकली ऑडियो और टेक्स्ट संस्करणों की तुलना में नकली वीडियो पर विश्वास करने और साझा करने की अधिक प्रवृत्ति होती है,अनुसारपेन स्टेट यूनिवर्सिटी के शोधकर्ताओं के लिए।

अंत में, हम पता लगाने के करीब भी नहीं आए हैं भाषा मॉडल के विषाक्त तत्वों के बारे में क्या करना है। हमने अभी-अभी टेक्स्ट-टू-इमेज AI सिस्टम से होने वाले नुकसान की जांच शुरू की है। वीडियो? उसके साथ अच्छा भाग्य।

गहरी सीख

यूरोपीय संघ हानिकारक एआई के लिए कंपनियों को हुक पर रखना चाहता है

नुकसान के लिए AI कंपनियों पर मुकदमा करना आसान बनाने के लिए EU नए नियम बना रहा है।पिछले हफ्ते प्रकाशित एक नया बिल, जो कुछ वर्षों में कानून बनने की संभावना है, एआई डेवलपर्स को खतरनाक सिस्टम जारी नहीं करने के लिए मजबूर करने के लिए यूरोप के एक धक्का का हिस्सा है।

बिल, जिसे एआई लायबिलिटी डायरेक्टिव कहा जाता हैयूरोपीय संघ के दांत जोड़ देगाएआई एक्ट, जो एक समान समय के आसपास कानून बनने के लिए तैयार है। एआई अधिनियम में एआई के “उच्च जोखिम” उपयोगों के लिए अतिरिक्त जांच की आवश्यकता होगी जिसमें लोगों को नुकसान पहुंचाने की सबसे अधिक संभावना हो। इसमें पुलिसिंग, भर्ती, या स्वास्थ्य देखभाल के लिए उपयोग किए जाने वाले एआई सिस्टम शामिल हो सकते हैं।

एक बार नुकसान होने के बाद देयता कानून शुरू हो जाएगा।यह लोगों और कंपनियों को नुकसान के लिए मुकदमा करने का अधिकार देगा जब उन्हें एआई सिस्टम द्वारा नुकसान पहुंचाया गया हो – उदाहरण के लिए, यदि वे यह साबित कर सकते हैं कि भेदभावपूर्ण एआई का उपयोग उन्हें काम पर रखने की प्रक्रिया के हिस्से के रूप में नुकसान पहुंचाने के लिए किया गया है।

लेकिन एक पकड़ है: उपभोक्ताओं को यह साबित करना होगा कि कंपनी के एआई ने उन्हें नुकसान पहुंचाया, जो एक बहुत बड़ा उपक्रम हो सकता है। आप इसके बारे में मेरी कहानी पढ़ सकते हैं यहां.

बिट्स और बाइट्स

कैसे रोबोट और AI बेहतर बैटरी विकसित करने में मदद कर रहे हैं
कार्नेगी मेलॉन के शोधकर्ताओं ने इलेक्ट्रोलाइट्स उत्पन्न करने के लिए एक स्वचालित प्रणाली और मशीन-लर्निंग सॉफ़्टवेयर का उपयोग किया जो लिथियम-आयन बैटरी को तेजी से चार्ज करने में सक्षम बनाता है, जो इलेक्ट्रिक वाहनों को व्यापक रूप से अपनाने में एक बड़ी बाधा को संबोधित करता है। (एमआईटी प्रौद्योगिकी समीक्षा)

क्या स्मार्टफोन आत्महत्या की भविष्यवाणी करने में मदद कर सकते हैं?
हार्वर्ड विश्वविद्यालय के शोधकर्ता स्मार्टफोन और पहनने योग्य बायोसेंसर से एकत्र किए गए डेटा का उपयोग कर रहे हैं, जैसे कि फिटबिट घड़ियों, एक एल्गोरिदम बनाने के लिए जो भविष्यवाणी करने में मदद कर सकता है कि रोगियों को आत्महत्या का खतरा कब होता है और चिकित्सकों को हस्तक्षेप करने में मदद मिलती है। (न्यूयॉर्क टाइम्स)

OpenAI ने अपने टेक्स्ट-टू-इमेज AI DALL-E को सभी के लिए उपलब्ध करा दिया है।
एआई-जनरेटेड इमेज हर जगह होने वाली हैं। आप सॉफ्टवेयर को आजमा सकते हैंयहां.

किसी ने एआई बनाया है जो प्रसिद्ध लोगों के पोकेमोन लुकलाइक बनाता है।
एकमात्र छवि-पीढ़ी एआई जो मायने रखती है। (वाशिंगटन पोस्ट)

पढ़ने के लिए धन्यवाद! आपसे अगले हफ्ते मिलते हैं।

मेलिसा

amar-bangla-patrika