ये खौफनाक नकली इंसान एआई में एक नए युग की शुरुआत करते हैं

एक बार वास्तविक डेटा की तुलना में कम वांछनीय के रूप में देखा जाने वाला, सिंथेटिक डेटा अब कुछ लोगों द्वारा रामबाण के रूप में देखा जाता है। वास्तविक डेटा गड़बड़ है और पूर्वाग्रह से भरा हुआ है। नए डेटा गोपनीयता नियम एकत्र करना कठिन बनाते हैं। इसके विपरीत, सिंथेटिक डेटा प्राचीन है और इसका उपयोग अधिक विविध डेटा सेट बनाने के लिए किया जा सकता है। आप पूरी तरह से लेबल किए गए चेहरों का उत्पादन कर सकते हैं, जैसे कि अलग-अलग उम्र, आकार और जातीयता के चेहरे की पहचान प्रणाली बनाने के लिए जो आबादी में काम करती है।

लेकिन सिंथेटिक डेटा की अपनी सीमाएँ हैं। यदि यह वास्तविकता को प्रतिबिंबित करने में विफल रहता है, तो यह गन्दा, पक्षपाती वास्तविक दुनिया के डेटा से भी बदतर एआई का उत्पादन कर सकता है – या यह केवल उन्हीं समस्याओं को प्राप्त कर सकता है। डेटा साइंटिस्ट और एल्गोरिथम ऑडिटिंग फर्म ORCAA के संस्थापक कैथी ओ’नील कहते हैं, “मैं जो नहीं करना चाहता, वह इस प्रतिमान को अंगूठा देता है और कहता है, ‘ओह, इससे बहुत सारी समस्याएं हल हो जाएंगी।” “क्योंकि यह बहुत सी चीजों को भी नजरअंदाज कर देगा।”

यथार्थवादी, वास्तविक नहीं

डीप लर्निंग हमेशा डेटा के बारे में रही है। लेकिन पिछले कुछ वर्षों में, AI समुदाय ने सीखा है कि अच्छा न डेटा से अधिक महत्वपूर्ण है important बड़े डेटा. यहां तक ​​​​कि सही, साफ-सुथरे लेबल वाले डेटा की थोड़ी मात्रा भी एआई सिस्टम के प्रदर्शन को बेहतर बनाने के लिए अनक्यूरेटेड डेटा की मात्रा या उससे भी अधिक उन्नत एल्गोरिथम की तुलना में अधिक कर सकती है।

डेटाजेन के सीईओ और कोफाउंडर, ओफिर चाकोन कहते हैं, इससे कंपनियों को अपने एआई मॉडल विकसित करने के तरीके में बदलाव करना चाहिए। आज, वे अधिक से अधिक डेटा प्राप्त करके शुरू करते हैं और फिर बेहतर प्रदर्शन के लिए अपने एल्गोरिदम को ट्वीक और ट्यून करते हैं। इसके बजाय, उन्हें इसके विपरीत करना चाहिए: अपने डेटा की संरचना में सुधार करते हुए उसी एल्गोरिथ्म का उपयोग करें।

डेटाजेन अपने नकली इंसानों को संदर्भ में रखने के लिए नकली फर्नीचर और इनडोर वातावरण भी बनाता है।

डेटाजेन

लेकिन इस तरह के पुनरावृत्तीय प्रयोग करने के लिए वास्तविक दुनिया का डेटा एकत्र करना बहुत महंगा और समय लेने वाला है। यह वह जगह है जहां डेटाजेन आता है। सिंथेटिक डेटा जेनरेटर के साथ, टीम एक दिन में दर्जनों नए डेटा सेट बना और परीक्षण कर सकती है ताकि यह पता लगाया जा सके कि कौन सा मॉडल के प्रदर्शन को अधिकतम करता है।

अपने डेटा के यथार्थवाद को सुनिश्चित करने के लिए, डेटाजेन अपने विक्रेताओं को विस्तृत निर्देश देता है कि प्रत्येक आयु वर्ग, बीएमआई रेंज और जातीयता में कितने व्यक्तियों को स्कैन करना है, साथ ही साथ उनके प्रदर्शन के लिए कार्यों की एक सेट सूची, जैसे एक कमरे में घूमना या एक सोडा पीना। विक्रेता उन कार्यों के उच्च-निष्ठा स्थिर छवियों और गति-कैप्चर डेटा दोनों को वापस भेजते हैं। डेटाजेन के एल्गोरिदम तब इस डेटा को सैकड़ों हजारों संयोजनों में विस्तारित करते हैं। संश्लेषित डेटा को कभी-कभी फिर से जांचा जाता है। नकली चेहरों को वास्तविक चेहरों के विरुद्ध प्लॉट किया जाता है, उदाहरण के लिए, यह देखने के लिए कि क्या वे यथार्थवादी लगते हैं।

डाटाजेन अब स्मार्ट कारों में ड्राइवर की सतर्कता पर नजर रखने के लिए चेहरे के भाव पैदा कर रहा है, कैशियर-मुक्त स्टोर में ग्राहकों को ट्रैक करने के लिए शरीर की गति, और वीआर हेडसेट्स की आंखों और हाथ-ट्रैकिंग क्षमताओं को बेहतर बनाने के लिए आईरिस और हैंड मोशन। कंपनी का कहना है कि उसके डेटा का उपयोग पहले से ही लाखों उपयोगकर्ताओं की सेवा करने वाले कंप्यूटर-विज़न सिस्टम विकसित करने के लिए किया जा चुका है।

यह सिर्फ सिंथेटिक इंसान नहीं हैं जिन्हें बड़े पैमाने पर निर्मित किया जा रहा है। क्लिक करें-इन्स एक स्टार्टअप है जो स्वचालित वाहन निरीक्षण करने के लिए सिंथेटिक एआई का उपयोग करता है। डिज़ाइन सॉफ़्टवेयर का उपयोग करके, यह सभी कार बनाने और मॉडलों को फिर से बनाता है जिन्हें इसकी एआई को पहचानने की आवश्यकता होती है और फिर उन्हें अलग-अलग पृष्ठभूमि के खिलाफ अलग-अलग प्रकाश स्थितियों के तहत अलग-अलग रंगों, क्षतियों और विकृतियों के साथ प्रस्तुत करता है। यह कंपनी को अपने एआई को अपडेट करने देता है जब वाहन निर्माता नए मॉडल डालते हैं, और उन देशों में डेटा गोपनीयता उल्लंघन से बचने में मदद करते हैं जहां लाइसेंस प्लेट को निजी जानकारी माना जाता है और इस प्रकार एआई को प्रशिक्षित करने के लिए उपयोग की जाने वाली तस्वीरों में मौजूद नहीं हो सकता है।

क्लिक-इन विभिन्न पृष्ठभूमियों में विभिन्न बनावट और मॉडलों की कारों को प्रस्तुत करता है।

क्लिक-इन

अधिकतर.एआई नकली क्लाइंट डेटा की स्प्रेडशीट प्रदान करने के लिए वित्तीय, दूरसंचार और बीमा कंपनियों के साथ काम करता है जो कंपनियों को कानूनी रूप से अनुपालन करने वाले तरीके से बाहरी विक्रेताओं के साथ अपने ग्राहक डेटाबेस को साझा करने देता है। अनामीकरण डेटा सेट की समृद्धि को कम कर सकता है फिर भी लोगों की गोपनीयता की पर्याप्त रूप से रक्षा करने में विफल रहता है। लेकिन सिंथेटिक डेटा का उपयोग विस्तृत नकली डेटा सेट बनाने के लिए किया जा सकता है जो कंपनी के वास्तविक डेटा के समान सांख्यिकीय गुणों को साझा करते हैं। इसका उपयोग उस डेटा को अनुकरण करने के लिए भी किया जा सकता है जो कंपनी के पास अभी तक नहीं है, जिसमें अधिक विविध ग्राहक आबादी या धोखाधड़ी गतिविधि जैसे परिदृश्य शामिल हैं।

सिंथेटिक डेटा के समर्थकों का कहना है कि यह एआई के मूल्यांकन में भी मदद कर सकता है। में एक हालिया पेपर एआई सम्मेलन में प्रकाशित, जॉन्स हॉपकिन्स विश्वविद्यालय में मशीन लर्निंग और स्वास्थ्य देखभाल के एक सहयोगी प्रोफेसर सुची सरिया, और उनके सहयोगियों ने दिखाया कि डेटा के एक सेट से विभिन्न रोगी आबादी को निकालने के लिए डेटा-जनरेशन तकनीकों का उपयोग कैसे किया जा सकता है। यह उपयोगी हो सकता है, उदाहरण के लिए, एक कंपनी के पास केवल न्यूयॉर्क शहर की अधिक युवा आबादी का डेटा था, लेकिन यह समझना चाहता था कि मधुमेह के उच्च प्रसार के साथ उम्र बढ़ने वाली आबादी पर इसका एआई कैसा प्रदर्शन करता है। वह अब अपनी खुद की कंपनी बायेसियन हेल्थ शुरू कर रही है, जो इस तकनीक का इस्तेमाल मेडिकल एआई सिस्टम के परीक्षण में मदद करेगी।

इसे नकली करने की सीमा limits

लेकिन क्या सिंथेटिक डेटा ओवरहाइप किया गया है?

जब गोपनीयता की बात आती है, “सिर्फ इसलिए कि डेटा ‘सिंथेटिक’ है और वास्तविक उपयोगकर्ता डेटा से सीधे मेल नहीं खाता है, इसका मतलब यह नहीं है कि यह वास्तविक लोगों के बारे में संवेदनशील जानकारी को एन्कोड नहीं करता है,” कंप्यूटर और सूचना विज्ञान के प्रोफेसर आरोन रोथ कहते हैं। पेंसिल्वेनिया विश्वविद्यालय में। उदाहरण के लिए, कुछ डेटा पीढ़ी तकनीकों को प्रशिक्षण डेटा में मिली छवियों या पाठ को बारीकी से पुन: पेश करने के लिए दिखाया गया है, जबकि अन्य उन हमलों के प्रति संवेदनशील हैं जो उन्हें उस डेटा को पूरी तरह से पुन: उत्पन्न करते हैं।

यह डेटाजेन जैसी फर्म के लिए ठीक हो सकता है, जिसका सिंथेटिक डेटा उन व्यक्तियों की पहचान छुपाने के लिए नहीं है, जिन्होंने स्कैन करने की सहमति दी थी। लेकिन यह उन कंपनियों के लिए बुरी खबर होगी जो संवेदनशील वित्तीय या रोगी जानकारी की सुरक्षा के लिए अपना समाधान पेश करती हैं।

शोध बताते हैं कि विशेष रूप से दो सिंथेटिक-डेटा तकनीकों का संयोजन-अंतर गोपनीयता तथा जनरेटिव प्रतिकूल नेटवर्क– सबसे मजबूत गोपनीयता सुरक्षा का उत्पादन कर सकते हैं, वाशिंगटन विश्वविद्यालय के ईसाइंस इंस्टीट्यूट के एक डेटा वैज्ञानिक बर्नेज हरमन कहते हैं। लेकिन संशयवादियों को चिंता है कि सिंथेटिक-डेटा विक्रेताओं के मार्केटिंग लिंगो में यह बारीकियां खो सकती हैं, जो हमेशा इस बारे में सामने नहीं आएंगे कि वे किन तकनीकों का उपयोग कर रहे हैं।

(Visited 1 times, 1 visits today)

About The Author

You might be interested in

भारत-स्थित-अपना-जिसका-एंड्रॉइड-ऐप-ब्लू-कॉलर-वर्कर्स-को.jpg
0

LEAVE YOUR COMMENT