Koe Recast के साथ, आप अपनी आवाज़ को अपने कपड़ों की तरह आसानी से बदल सकते हैं

एक रंगीन तरंग जिसका वास्तव में Koe: Recast से कोई लेना-देना नहीं है।
बड़े आकार में / एक रंगीन तरंग नाटकीय रूप से अव्यक्त स्थान में घूमती है, कवाई की तलाश में।

एक के लिए धन्यवाद वेब डेमो Koe Recast नामक एक नए AI टूल से, आप अपनी आवाज़ के 20 सेकंड तक को विभिन्न शैलियों में बदल सकते हैं, जिसमें एक एनीमे चरित्र, एक गहरा पुरुष कथावाचक, एक ASMR फुसफुसा, और बहुत कुछ शामिल है। यह वर्तमान में निजी अल्फा परीक्षण के दौर से गुजर रहे संभावित वाणिज्यिक उत्पाद का एक आंख खोलने वाला पूर्वावलोकन है।

Koe Recast हाल ही में टेक्सास स्थित एक डेवलपर से उभरा जिसका नाम है आसरा नियर, जो एक डेस्कटॉप ऐप विकसित करने के लिए स्वतंत्र रूप से काम कर रहा है, जिसका उद्देश्य लोगों को ज़ूम और डिस्कॉर्ड जैसे अन्य ऐप के माध्यम से वास्तविक समय में अपनी आवाज़ बदलने की अनुमति देना है। “मेरा लक्ष्य लोगों को खुद को किसी भी तरह से व्यक्त करने में मदद करना है जो उन्हें खुश करता है,” नियर ने Ars के साथ एक संक्षिप्त साक्षात्कार में कहा।

पर कई डेमो कोए वेबसाइट मार्क जुकरबर्ग की बदली हुई क्लिप दिखाएं, जो एक महिला आवाज के साथ संवर्धित वास्तविकता के बारे में बात कर रही हैं, एक गहरी पुरुष कथाकार आवाज, और एक उच्च स्वर वाली एनीमे आवाज, जो सभी रीकास्ट द्वारा संचालित है।

इस तरह की यथार्थवादी एआई-पावर्ड वॉयस ट्रांसफॉर्मेशन तकनीक नई नहीं है। गूगल लहरें बनाईं 2018 में इसी तरह की तकनीक के साथ, और मशहूर हस्तियों के ऑडियो डीपफेक हैं विवाद का कारण बना अब कई वर्षों से। लेकिन एक व्यक्ति द्वारा वित्त पोषित एक स्वतंत्र स्टार्टअप में इस क्षमता को देखकर- “मैंने इस परियोजना को पूरी तरह से अब तक पूरी तरह से वित्त पोषित किया है,” निकट ने कहा- दिखाता है कि एआई मुखर संश्लेषण तकनीक कितनी दूर आ गई है और शायद संकेत देती है कि आवाज परिवर्तन कितना करीब हो सकता है कम लागत या ओपन सोर्स रिलीज के माध्यम से व्यापक रूप से अपनाना।

यह पूछे जाने पर कि हुड के नीचे रीकास्ट की आवाज परिवर्तन किस विशिष्ट प्रकार की एआई शक्तियां हैं, नियर होल्ड बैक स्पेसिफिकेशंस लेकिन सामान्यीकृत कि यह कैसे काम करता है, “हम अपने द्वारा बनाए गए एम्बेडिंग स्पेस के भीतर आवाजों की विशेषताओं में गोता लगाने और बदलने में सक्षम हैं। हमारा लक्ष्य, ऑडियो के उन हिस्सों को संशोधित करना है जो स्पीकर की व्यक्तिगत शैली या समय के अनुरूप हैं, जबकि ऑडियो के उन हिस्सों को संरक्षित करते हैं जो बोली जाने वाली सामग्री जैसे कि प्रोसोडी और शब्दों से मेल खाते हैं। यह हमें किसी की आवाज की शैली को बदलने की अनुमति देता है उनके कथित लिंग, आयु, जातीयता, आदि सहित कोई अन्य शैली।”

रीकास्ट 10 अलग-अलग आवाजों का समर्थन करता है, और बहुत कुछ रास्ते में है। “यह वर्तमान में अनिश्चित है कि क्या हम मशहूर हस्तियों या अन्य प्रसिद्ध व्यक्तियों की मौजूदा आवाज़ें पेश करेंगे,” नियर ने कहा।

हालांकि, सेलिब्रिटी आवाज (या गैर-सेलिब्रिटी जीवित व्यक्तियों की नकल करने वाले) की पेशकश नैतिक और कानूनी प्रश्न उठा सकती है। रेकास्ट के संभावित दुरुपयोग के बारे में पूछे जाने पर, नियर ने उत्तर दिया, “किसी भी तकनीक की तरह, सकारात्मक और नकारात्मक दोनों होना संभव है, लेकिन मुझे लगता है कि मानवता के विशाल बहुमत में अद्भुत लोग हैं और इससे बहुत लाभ होगा।” नियर ने यह भी बताया कि रीकास्ट में अवैध और घृणित उपयोग को प्रतिबंधित करने वाली सेवा की शर्तें शामिल हैं।

रिलीज़ टाइमलाइन के लिए, नियर कमर्शियल विकल्पों का अनुसरण कर रहा है, लेकिन एक ओपन सोर्स रिलीज़ से इंकार नहीं कर रहा है, जिसका संभावित रूप से समान प्रभाव हो सकता है स्थिर प्रसार कठोर प्रतिबंधों के बिना यथार्थवादी ऑडियो डीपफेक को कई लोगों के हाथों में डालकर। “हम कुछ मुद्रीकरण रणनीतियों की खोज कर रहे हैं,” नियर ने कहा। “अगर मेरे मन में जो लाभ मॉडल हैं, वे काम नहीं करते हैं, तो इस तकनीक को ओपन-सोर्स करना भविष्य में एक विकल्प हो सकता है।”

जैसे-जैसे गहन शिक्षण तकनीक 20वीं सदी की अवधारणा को दूर करती जा रही है (या कुछ लोग कह सकते हैं “मोह माया”) मीडिया के वास्तविकता के एक निश्चित और सटीक रिकॉर्ड के रूप में, हम निकट भविष्य में देख रहे हैं जिसमें एक जीवित मानव की आवाज का डिजिटल प्रतिनिधित्व, बहुत कुछ पसंद है चित्र और वीडियो, एक और चीज होगी जिसे आप स्रोत पर महत्वपूर्ण विश्वास के बिना अंकित मूल्य पर नहीं ले सकते। फिर भी, प्रौद्योगिकी कई लोगों को सशक्त बना सकती है जो अन्यथा भेदभाव किया जा सकता है व्यवसाय करते समय—या केवल मौज-मस्ती करते हुए—ऑनलाइन।

amar-bangla-patrika