ERNIE-ViLG में कोई तियानमेन स्क्वायर नहीं, नई चीनी छवि बनाने वाला AI

जब अगस्त के अंत में सॉफ्टवेयर का एक डेमो जारी किया गया, तो उपयोगकर्ताओं ने जल्दी से पाया कि कुछ शब्द-राजनीतिक नेताओं के नाम और शब्दों के स्पष्ट उल्लेख, जो केवल राजनीतिक संदर्भों में संभावित रूप से विवादास्पद हैं- को “संवेदनशील” के रूप में लेबल किया गया था और किसी भी परिणाम को उत्पन्न करने से रोक दिया गया था। . ऐसा लगता है कि चीन की ऑनलाइन सेंसरशिप की परिष्कृत प्रणाली, एआई में नवीनतम प्रवृत्ति तक विस्तारित हो गई है।

समान AI के लिए उपयोगकर्ताओं को कुछ प्रकार की सामग्री उत्पन्न करने से सीमित करना दुर्लभ नहीं है। दाल-ई 2 पर प्रतिबंध लगाता है यौन सामग्री, सार्वजनिक हस्तियों के चेहरे, या चिकित्सा उपचार चित्र। लेकिन ERNIE-ViLG का मामला इस सवाल को रेखांकित करता है कि मॉडरेशन और राजनीतिक सेंसरशिप के बीच की रेखा वास्तव में कहां है।

ERNIE-ViLG मॉडल, Wenxin का हिस्सा है, जो चीन की अग्रणी AI कंपनी Baidu की प्राकृतिक-भाषा प्रसंस्करण में एक बड़े पैमाने की परियोजना है। इसे 145 मिलियन छवि-पाठ जोड़े के डेटा सेट पर प्रशिक्षित किया गया था और इसमें 10 बिलियन पैरामीटर शामिल हैं-वे मान जो एक तंत्रिका नेटवर्क सीखता है, जिसे एआई अवधारणाओं और कला शैलियों के बीच सूक्ष्म अंतर को समझने के लिए उपयोग करता है।

इसका मतलब है कि ERNIE-ViLG के पास DALL-E 2 (650 मिलियन जोड़े) और स्टेबल डिफ्यूजन (2.3 बिलियन जोड़े) की तुलना में एक छोटा प्रशिक्षण डेटा सेट है, लेकिन किसी एक से अधिक पैरामीटर (DALL-E 2 में 3.5 बिलियन पैरामीटर हैं और स्टेबल डिफ्यूजन में 890 मिलियन हैं) ) अगस्त के अंत में Baidu ने अपने स्वयं के मंच पर एक डेमो संस्करण जारी किया बाद में हगिंग फेसलोकप्रिय अंतरराष्ट्रीय एआई समुदाय।

ERNIE-ViLG और पश्चिमी मॉडलों के बीच मुख्य अंतर यह है कि Baidu-विकसित व्यक्ति चीनी में लिखे गए संकेतों को समझता है और जब सांस्कृतिक रूप से विशिष्ट शब्दों की बात आती है तो गलतियाँ करने की संभावना कम होती है।

उदाहरण के लिए, एक चीनी वीडियो निर्माता संकेतों के लिए विभिन्न मॉडलों के परिणामों की तुलना की जिसमें चीनी ऐतिहासिक हस्तियां, पॉप संस्कृति हस्तियां और भोजन शामिल थे। उन्होंने पाया कि ERNIE-ViLG ने DALL-E 2 या स्टेबल डिफ्यूजन की तुलना में अधिक सटीक चित्र बनाए। इसके जारी होने के बाद, ERNIE-ViLG को भी उन लोगों द्वारा अपनाया गया है जो जापानी एनीमे समुदायजिन्होंने पाया कि मॉडल अन्य मॉडलों की तुलना में अधिक संतोषजनक एनीमे कला उत्पन्न कर सकता है, संभवतः क्योंकि इसमें अपने प्रशिक्षण डेटा में अधिक एनीमे शामिल हैं।

लेकिन ईआरएनआईई-वीआईएलजी को अन्य मॉडलों की तरह परिभाषित किया जाएगा, जो इसकी अनुमति देता है। DALL-E 2 या स्थिर प्रसार के विपरीत, ERNIE-ViLG के पास अपनी सामग्री मॉडरेशन नीति का प्रकाशित स्पष्टीकरण नहीं है, और Baidu ने इस कहानी के लिए टिप्पणी करने से इनकार कर दिया।

जब पहली बार हगिंग फेस पर ईआरएनआईई-वीआईएलजी डेमो जारी किया गया था, तो कुछ शब्दों को इनपुट करने वाले उपयोगकर्ताओं को “संवेदनशील शब्द मिले” संदेश प्राप्त होगा। कृपया फिर से दर्ज करें (存在敏感词,请重新输入), “जो फ़िल्टरिंग तंत्र के बारे में आश्चर्यजनक रूप से ईमानदार प्रवेश था। हालांकि, कम से कम 12 सितंबर के बाद से, संदेश में लिखा है “प्रविष्ट सामग्री प्रासंगिक नियमों को पूरा नहीं करती है। कृपया इसे समायोजित करने के बाद पुन: प्रयास करें। (输入内容不符合相关规则,请调整后再试!)”

amar-bangla-patrika