यह एआई एजेंट दुष्ट न बनने के लिए डिज़ाइन किया गया है

एआई एजेंट पसंद करते हैं खुला पंजा हाल ही में लोकप्रियता में विस्फोट हुआ है, ठीक इसलिए क्योंकि वे आपके डिजिटल जीवन की बागडोर अपने हाथ में ले सकते हैं। चाहे आप एक व्यक्तिगत सुबह की समाचार समीक्षा चाहते हों, एक प्रॉक्सी जो आपकी केबल कंपनी की ग्राहक सेवा से लड़ सके, या एक टू-डू सूची ऑडिटर जो आपके लिए कुछ कार्य करेगा और बाकी को हल करने के लिए आपको तैयार करेगा, एजेंट सहायक आपके डिजिटल खातों तक पहुंचने और आपके असाइनमेंट को पूरा करने के लिए बनाए गए हैं। यह उपयोगी है – लेकिन है भी बहुत अराजकता फैलाई. बॉट वहाँ से बाहर हैं ईमेल का बड़े पैमाने पर विलोपन उन्हें संरक्षित करने का निर्देश दिया गया, कथित ठगों के बारे में हिट लेख लिखनाऔर उनके स्वामियों के विरुद्ध फ़िशिंग हमले प्रारंभ करें.

जैसा कि हाल के सप्ताहों में महामारी सामने आई, लंबे समय तक सुरक्षा इंजीनियर और शोधकर्ता नील्स प्रोवोस ने कुछ नया प्रयास करने का फैसला किया। आज, वह एक ओपन-सोर्स, सुरक्षित एआई असिस्टेंट लॉन्च कर रहा है लौह पर्दा नियंत्रण की एक महत्वपूर्ण परत जोड़ने के लिए डिज़ाइन किया गया। एजेंट उपयोगकर्ता के सिस्टम और खातों के साथ सीधे इंटरैक्ट करने के बजाय, यह एक अलग वर्चुअल मशीन में चलता है। और कोई भी कार्रवाई करने की इसकी क्षमता एक नीति द्वारा मध्यस्थ होती है – आप इसे एक संविधान के रूप में भी सोच सकते हैं – जिसे मालिक सिस्टम को नियंत्रित करने के लिए लिखता है। महत्वपूर्ण रूप से, आयरनकर्टन को इन व्यापक नीतियों को सादे अंग्रेजी में प्राप्त करने और फिर उन्हें एक बहु-चरणीय प्रक्रिया के माध्यम से चलाने के लिए डिज़ाइन किया गया है जो प्राकृतिक भाषा को एक लागू करने योग्य सुरक्षा नीति में परिवर्तित करने के लिए एक बड़े भाषा मॉडल (एलएलएम) का उपयोग करता है।

प्रोवोस कहते हैं, “ओपनक्लॉ जैसी सेवाएं अभी चरम पर हैं, लेकिन मेरी आशा है कि यह कहने का अवसर है, ‘ठीक है, शायद हम इसे इस तरह से नहीं करना चाहते हैं।” “इसके बजाय, आइए कुछ ऐसा विकसित करें जो अभी भी आपको बहुत अच्छी उपयोगिता देता है, लेकिन इन पूरी तरह से अज्ञात, कभी-कभी विनाशकारी रास्तों पर नहीं जाता है।”

प्रोवोस कहते हैं, आयरनकर्टन की सहज, सरल कथन लेने और उन्हें लागू करने योग्य, नियतात्मक, या पूर्वानुमानित लाल रेखाओं में बदलने की क्षमता आवश्यक है, क्योंकि एलएलएम कुख्यात “स्टोकेस्टिक” और संभाव्य हैं। दूसरे शब्दों में, जरूरी नहीं कि वे हमेशा एक ही सामग्री तैयार करें या एक ही अनुरोध के जवाब में एक ही जानकारी दें। यह एआई रेल के लिए चुनौतियां पैदा करता है क्योंकि एआई सिस्टम समय के साथ विकसित हो सकते हैं ताकि वे नियंत्रण या प्रतिबंध तंत्र की व्याख्या को संशोधित कर सकें, जिससे दुष्ट गतिविधि हो सकती है।

प्रोवोस का कहना है कि आयरनकर्टेन नीति इतनी सरल हो सकती है: “एजेंट मेरे सभी ईमेल पढ़ सकता है। यह मेरे संपर्कों के लोगों को बिना पूछे ईमेल भेज सकता है। किसी और के लिए, पहले मुझसे पूछें। कभी भी कुछ भी स्थायी रूप से न हटाएं।”

आयरनकर्टन इन निर्देशों को लेता है, उन्हें एक लागू करने योग्य नीति में बदल देता है, और फिर वर्चुअल मशीन में सहायक एजेंट और जिसे मॉडल संदर्भ प्रोटोकॉल सर्वर के रूप में जाना जाता है, के बीच मध्यस्थता करता है जो एलएलएम को कार्य करने के लिए डेटा और अन्य डिजिटल सेवाओं तक पहुंच प्रदान करता है। इस तरह से एक एजेंट को प्रतिबंधित करना एक्सेस कंट्रोल का एक महत्वपूर्ण घटक जोड़ता है जो ईमेल प्रदाता जैसे वेब प्लेटफ़ॉर्म वर्तमान में पेश नहीं करते हैं क्योंकि वे उस परिदृश्य के लिए नहीं बनाए गए हैं जहां एक मानव मालिक और एआई एजेंट बॉट सभी एक खाते का उपयोग करते हैं।

प्रोवोस नोट करते हैं कि आयरनकर्टन को समय के साथ प्रत्येक उपयोगकर्ता के “संविधान” को परिष्कृत और बेहतर बनाने के लिए डिज़ाइन किया गया है क्योंकि सिस्टम किनारे के मामलों का सामना करता है और आगे बढ़ने के तरीके पर मानव इनपुट मांगता है। प्रणाली, जो मॉडल स्वतंत्र है और किसी भी एलएलएम के साथ उपयोग की जा सकती है, को समय के साथ सभी नीतिगत निर्णयों का ऑडिट लॉग बनाए रखने के लिए भी डिज़ाइन किया गया है।

आयरनकर्टन एक शोध प्रोटोटाइप है, उपभोक्ता उत्पाद नहीं, और प्रोवोस को उम्मीद है कि लोग इसे तलाशने और इसे विकसित करने में मदद करने के लिए परियोजना में योगदान देंगे। डिनो दाई ज़ोवी, एक प्रसिद्ध साइबर सुरक्षा शोधकर्ता, जिन्होंने आयरनकर्टन के शुरुआती संस्करणों के साथ प्रयोग किया था, का कहना है कि परियोजना द्वारा अपनाया गया वैचारिक दृष्टिकोण उनके अपने अंतर्ज्ञान के अनुरूप है कि एजेंटिक एआई को कैसे सीमित किया जाना चाहिए।