News In Brief Technology and Gadgets

OpenAI ने एआई एजेंट 'Operator' लॉन्च किया

118

25 Jan 2025

7 min read

News Synopsis

ओपनएआई OpenAI ने हाल ही में ऑपरेटर Operator पेश किया है, जो एक एक्सपेरिमेंटल डिजिटल एजेंट है, जो कंप्यूटर-यूजिंग एजेंट नामक एक नए मॉडल द्वारा संचालित है। हालाँकि यह कांसेप्ट अभूतपूर्व है, जो एआई को मनुष्यों की तरह ग्राफ़िकल इंटरफ़ेस के साथ बातचीत करके वेब पर कार्य करने में सक्षम बनाती है, लेकिन यह स्पष्ट है, कि इस टेक्नोलॉजी को अभी भी एक लंबा रास्ता तय करना है, इससे पहले कि इसे काम्प्लेक्स रियल-वर्ल्ड टास्क के लिए व्यापक रूप से भरोसा किया जा सके।

What is Operator and how does it work?

इसके मूल में ऑपरेटर एक AI है, जो स्क्रीन पर विसुअल संकेतों की व्याख्या कर सकता है, जैसे बटन, मेनू और टेक्स्ट फ़ील्ड और उन संकेतों का उपयोग कार्यों को निष्पादित करने के लिए कर सकता है। CUA द्वारा संचालित मॉडल GPT-4o की दृष्टि क्षमताओं को सुदृढीकरण सीखने के माध्यम से सीखे गए तर्क के साथ जोड़ता है। यह इसे OS या वेब-स्पेसिफिक API पर निर्भर किए बिना डिजिटल वातावरण में नेविगेट करने की अनुमति देता है। सिद्धांत रूप में इसका मतलब है, कि ऑपरेटर न्यूनतम ह्यूमन इनपुट के साथ विभिन्न प्लेटफ़ॉर्म पर कार्यों को संभाल सकता है।

जबकि यह प्रभावशाली लग सकता है, मॉडल का रियल-वर्ल्ड परफॉरमेंस वांछित होने के लिए बहुत कुछ छोड़ देता है। CUA को कार्यों को चरणों में तोड़ने और बाधाओं का सामना करने पर अनुकूलित करने के लिए डिज़ाइन किया गया है। हालाँकि यह प्रोसेस अभी भी बहुत शुरुआती चरणों में है, जिसमें रास्ते में लगातार त्रुटियाँ और अड़चनें हैं।

Mixed results and low success rates

टेस्टिंग में CUA ने OSWorld पर 38.1% सफलता दर हासिल की, जो पूर्ण कंप्यूटर उपयोग कार्यों का अनुकरण करता है। वेब-बेस्ड टास्क के लिए संख्याएँ थोड़ी बेहतर थीं, लेकिन फिर भी प्रभावशाली नहीं थीं: WebArena पर 58.1% और WebVoyager पर 87%। हालाँकि ये आँकड़े उत्साहजनक लग सकते हैं, लेकिन वे उस तरह की विश्वसनीयता से बहुत दूर हैं, जो किसी AI सिस्टम को डेली टास्क में वास्तव में उपयोगी होने के लिए आवश्यक है।

संक्षेप में जबकि CUA कार्य कर सकता है, यह अक्सर संघर्ष करता है, जो ह्यूमन इंटरवेंशन के बिना मल्टी-स्टेप, रियल-वर्ल्ड एक्शन को निष्पादित करने की बात आने पर वर्तमान AI मॉडल की सीमाओं को उजागर करता है।

Safety concerns and limited availability

ऑपरेटर के सबसे चिंताजनक पहलुओं में से एक वेब तक इसकी पहुँच है। AI को विभिन्न ऑनलाइन प्लेटफ़ॉर्म पर ब्राउज़ करने, क्लिक करने और उनसे बातचीत करने की अनुमति देना महत्वपूर्ण सुरक्षा और नैतिक जोखिम पेश करता है। OpenAI ने यह स्पष्ट कर दिया है, कि सुरक्षा सर्वोच्च प्राथमिकता है, लेकिन इस तरह की टेक्नोलॉजी के साथ AI एजेंट को डिजिटल स्पेस तक फ्री एक्सेस देने के अनपेक्षित परिणामों के बारे में चिंता न करना मुश्किल है। गलतियाँ या दुरुपयोग गंभीर मुद्दों को जन्म दे सकते हैं, जिसमें डेटा प्राइवेसी उल्लंघन से लेकर अनपेक्षित कार्यवाहियाँ शामिल हैं।

इन चिंताओं को दूर करने के लिए OpenAI धीरे-धीरे ऑपरेटर को रोल आउट कर रहा है, शुरुआत में इसे यू.एस. में प्रो टियर यूजर्स के लिए पेश कर रहा है। यह सतर्क दृष्टिकोण कंपनी को यूजर फीडबैक कलेक्ट करने और सेफ्टी फीचर्स को परिष्कृत करने की अनुमति देता है। लेकिन इस लिमिटेड रोलआउट के साथ भी AI एजेंट को वेब तक अप्रतिबंधित पहुँच देने के जोखिमों को नज़रअंदाज़ नहीं किया जा सकता है।

The road ahead

जबकि ऑपरेटर एआई लैंडस्केप में एक दिलचस्प कदम है, यह स्पष्ट है, कि टेक्नोलॉजी अभी भी परिपूर्णता से बहुत दूर है। अपनी सभी संभावनाओं के बावजूद यह विश्वसनीयता, सटीकता और स्थिरता के साथ संघर्ष करता है। इसके प्रदर्शन में महत्वपूर्ण अंतराल को देखते हुए यह देखना मुश्किल है, कि इस टेक्नोलॉजी का उपयोग मिशन-क्रिटिकल एप्लीकेशन में कभी भी कैसे किया जा सकता है।

इसके अलावा जबकि ग्राफिकल इंटरफेस को समझने और उनके साथ बातचीत करने की CUA की क्षमता एक सफलता है, एक AI सिस्टम होने की वास्तविकता जिसके लिए निरंतर फाइन-ट्यूनिंग और पर्यवेक्षण की आवश्यकता होती है, इसे इस स्तर पर एक डिजिटल असिस्टेंट से कम और एक रिसर्च प्रोजेक्ट से अधिक बनाता है।

Podcast

Editorial Segment

TWN Special