स्थिर प्रसार के साथ, आप कभी भी उस पर विश्वास नहीं कर सकते जो आप फिर से ऑनलाइन देखते हैं

स्थिर प्रसार के साथ बनाई गई तीन छवियां
बड़े आकार में / क्या आप जानते हैं कि अब्राहम लिंकन एक चरवाहे थे? स्थिर प्रसार करता है।

बेंज एडवर्ड्स / स्थिर प्रसार

एआई इमेज जनरेशन यहां बड़े पैमाने पर है। एक नया जारी किया गया ओपन सोर्स इमेज सिंथेसिस मॉडल कहा जाता है स्थिर प्रसार एक पीसी और एक सभ्य GPU के साथ किसी को भी लगभग किसी भी दृश्य वास्तविकता को अपनाने की अनुमति देता है जिसकी वे कल्पना कर सकते हैं। यह वस्तुतः किसी भी दृश्य शैली की नकल कर सकता है, और यदि आप इसे एक वर्णनात्मक वाक्यांश खिलाते हैं, तो परिणाम आपकी स्क्रीन पर जादू की तरह दिखाई देते हैं।

कुछ कलाकार खुश हैं संभावना से, दूसरों इसके बारे में खुश नहीं हैं, और बड़े पैमाने पर समाज अभी भी ट्विटर, डिस्कॉर्ड और जीथब पर समुदायों के माध्यम से हो रही तेजी से विकसित हो रही तकनीकी क्रांति से काफी हद तक अनजान है। छवि संश्लेषण यकीनन प्रभाव को कैमरे के आविष्कार के रूप में बड़ा लाता है – या शायद स्वयं दृश्य कला का निर्माण। यहां तक ​​कि इतिहास की हमारी भावना दांव पर लग सकता है, इस पर निर्भर करता है कि चीजें कैसे हिलती हैं। किसी भी तरह से, स्थिर प्रसार गहन शिक्षण रचनात्मक उपकरणों की एक नई लहर का नेतृत्व कर रहा है जो दृश्य मीडिया के निर्माण में क्रांति लाने के लिए तैयार हैं।

गहन शिक्षण छवि संश्लेषण का उदय

स्टेबल डिफ्यूजन लंदन के एक पूर्व हेज फंड मैनेजर इमाद मोस्टाक के दिमाग की उपज है, जिसका उद्देश्य अपनी कंपनी, स्टेबिलिटी एआई के माध्यम से लोगों तक गहरी शिक्षा के नए अनुप्रयोगों को लाना है। लेकिन आधुनिक छवि संश्लेषण की जड़ें बहुत पहले की हैं 2014 तकऔर स्थिर प्रसार इस वर्ष तरंगें बनाने वाला पहला छवि संश्लेषण मॉडल (ISM) नहीं था।

अप्रैल 2022 में, OpenAI ने घोषणा की दाल-ई 2, जिसने सोशल मीडिया को शब्दों में लिखे गए एक दृश्य (जिसे “प्रॉम्प्ट” कहा जाता है) को असंख्य दृश्य शैलियों में बदलने की क्षमता के साथ चौंका दिया, जो शानदार, फोटोरिअलिस्टिक या यहां तक ​​​​कि सांसारिक हो सकता है। बंद-बंद उपकरण तक विशेषाधिकार प्राप्त लोगों ने घोड़े की पीठ पर अंतरिक्ष यात्री उत्पन्न किए, प्राचीन मिस्र में टेडी बियर खरीदकर रोटी, प्रसिद्ध कलाकारों की शैली में उपन्यास मूर्तियां, और बहुत कुछ।

OpenAI DALL-E 2 वेबसाइट का स्क्रीनशॉट।
बड़े आकार में / OpenAI DALL-E 2 वेबसाइट का स्क्रीनशॉट।

ओपनएआई

DALL-E 2 के कुछ ही समय बाद, गूगल तथा मेटा अपने स्वयं के टेक्स्ट-टू-इमेज AI मॉडल की घोषणा की। मध्य यात्रामार्च 2022 से एक डिस्कॉर्ड सर्वर के रूप में उपलब्ध है और कुछ महीनों बाद जनता के लिए खुला है, एक्सेस के लिए शुल्क लेता है और समान प्रभाव प्राप्त करता है लेकिन डिफ़ॉल्ट के रूप में अधिक चित्रकारी और उदाहरणात्मक गुणवत्ता के साथ।

फिर स्थिर प्रसार है। 22 अगस्त को स्थिरता एआई मुक्त इसका ओपन सोर्स इमेज जनरेशन मॉडल जो यकीनन गुणवत्ता में DALL-E 2 से मेल खाता है। इसने अपनी खुद की व्यावसायिक वेबसाइट भी लॉन्च की, जिसका नाम है ड्रीमस्टूडियो, जो स्थिर प्रसार के साथ छवियों को उत्पन्न करने के लिए समय की गणना करने के लिए पहुंच बेचता है। DALL-E 2 के विपरीत, कोई भी इसका उपयोग कर सकता है, और चूंकि स्टेबल डिफ्यूजन कोड ओपन सोर्स है, इसलिए प्रोजेक्ट कुछ प्रतिबंधों के साथ इसे बंद कर सकते हैं।

अकेले पिछले सप्ताह में, स्थिर प्रसार को नई दिशा में ले जाने वाली दर्जनों परियोजनाओं ने ऊपर उछला. और लोगों ने “img2img” नामक तकनीक का उपयोग करके अप्रत्याशित परिणाम प्राप्त किए हैं, जिसमें “उन्नत” एमएस-डॉस खेल कला, परिवर्तित Minecraft ग्राफिक्स यथार्थवादी लोगों में, अलादीन के एक दृश्य को बदल दिया 3डी . मेंअनुवादित बच्चों की तरह लिखावट समृद्ध चित्रों में, और भी बहुत कुछ। छवि संश्लेषण बड़े पैमाने पर दर्शकों के लिए विचारों को समृद्ध रूप से कल्पना करने की क्षमता ला सकता है, प्रवेश के लिए बाधाओं को कम करते हुए कलाकारों की क्षमताओं को भी तेज कर सकता है, जो कि 1990 के दशक में एडोब फोटोशॉप ने किया था।

<em>ड्यूक नुकेम</em>, <em>द सीक्रेट ऑफ़ मंकी आइलैंड</em>,<em> किंग्स क्वेस्ट VI</em>, और <em>स्टार कंट्रोल II</em> के पोर्ट्रेट को स्टेबल डिफ्यूजन मिला -संचालित प्रशंसक उन्नयन।” src=”https://cdn.arstechnica.net/wp-content/uploads/2022/09/ms_dos_game_upgrade_set-640×320.jpg” width=”640″ height=”320″ srcset=”https://cdn.arstechnica.net/wp-content/uploads/2022/09/ms_dos_game_upgrade_set.jpg 2x”/></a><figcaption class=
बड़े आकार में / से पोर्ट्रेट्स ड्यूक नुकेम, बंदर द्वीप का रहस्य, किंग्स क्वेस्ट VIतथा स्टार कंट्रोल II स्थिर प्रसार-संचालित प्रशंसक उन्नयन प्राप्त किया।

तुम कर सकते हो स्टेबल डिफ्यूजन स्थानीय रूप से स्वयं चलाएँ यदि आप कुछ रहस्यमय चरणों की एक श्रृंखला का पालन करते हैं। पिछले दो हफ्तों से, हम इसे विंडोज पीसी पर एनवीडिया आरटीएक्स 3060 12 जीबी जीपीयू के साथ चला रहे हैं। यह लगभग 10 सेकंड में 512×512 इमेज जेनरेट कर सकता है। 3090 Ti पर, वह समय घटकर चार सेकंड प्रति छवि रह जाता है। क्रूड कमांड-लाइन इंटरफेस और Google Colab नोटबुक से अधिक पॉलिश (लेकिन अभी भी जटिल) फ्रंट-एंड GUI तक जाने के साथ, इंटरफेस तेजी से विकसित होते रहते हैं, और अधिक पॉलिश किए गए इंटरफेस जल्द ही आने वाले हैं। इसलिए यदि आप तकनीकी रूप से इच्छुक नहीं हैं, तो कस कर पकड़ें: आसान समाधान रास्ते में हैं। और अगर बाकी सब विफल हो जाता है, तो आप कर सकते हैं एक डेमो का प्रयास करें ऑनलाइन।

amar-bangla-patrika