त्वरित इंजेक्शन स्कीमा की सुरक्षा के लिए स्वचालित सह-विकासवादी ढांचा

टिंग-चुन लियू और चिंग-यू सू और कुआन-यी ली और ची-एन फू और हंग-यी ली द्वारा लिखित एईजीआईएस: स्वचालित सह-विकासवादी फ्रेमवर्क फॉर गार्डिंग प्रॉम्प्ट इंजेक्शन स्कीमा शीर्षक वाले पेपर का एक पीडीएफ देखें।
पीडीएफ देखें
HTML (प्रयोगात्मक)
अमूर्त:त्वरित इंजेक्शन हमले वास्तविक दुनिया के अनुप्रयोगों में बड़े भाषा मॉडल (एलएलएम) की सुरक्षित तैनाती के लिए एक महत्वपूर्ण चुनौती पेश करते हैं। जबकि शीघ्र-आधारित पहचान एक हल्की और व्याख्या योग्य रक्षा रणनीति प्रदान करती है, इसकी प्रभावशीलता मैन्युअल शीघ्र इंजीनियरिंग की आवश्यकता से बाधित हुई है। इस समस्या का समाधान करने के लिए, हम एईजीआईएस का प्रस्ताव करते हैं, जो त्वरित इंजेक्शन स्कीमा की सुरक्षा के लिए एक स्वचालित सह-विकासवादी ढांचा है। आक्रमण और रक्षा संकेत दोनों को ग्रेडिएंट-जैसी प्राकृतिक भाषा शीघ्र अनुकूलन तकनीक का उपयोग करके एक-दूसरे के विरुद्ध पुनरावृत्त रूप से अनुकूलित किया जाता है। यह ढांचा हमलावरों और रक्षकों दोनों को एलएलएम-निर्देशित मूल्यांकन लूप से फीडबैक का लाभ उठाते हुए, टेक्स्टुअल ग्रेडिएंट ऑप्टिमाइज़ेशन (टीजीओ) मॉड्यूल के माध्यम से स्वायत्त रूप से विकसित होने में सक्षम बनाता है। हम त्वरित इंजेक्शन हमलों के वास्तविक दुनिया असाइनमेंट ग्रेडिंग डेटासेट पर अपने सिस्टम का मूल्यांकन करते हैं और प्रदर्शित करते हैं कि हमारी पद्धति लगातार मौजूदा बेसलाइन से बेहतर प्रदर्शन करती है, जिससे हमले की सफलता और पहचान दोनों में बेहतर मजबूती प्राप्त होती है। विशेष रूप से, हमले की सफलता दर (एएसआर) 1.0 तक पहुंच जाती है, जो बेसलाइन पर 0.26 के सुधार को दर्शाती है। पता लगाने के लिए, वास्तविक सकारात्मक दर (टीपीआर) में पिछले सर्वोत्तम कार्य की तुलना में 0.23 का सुधार हुआ है, जो 0.84 तक पहुंच गया है, और वास्तविक नकारात्मक दर (टीएनआर) 0.89 पर तुलनीय बनी हुई है। एब्लेशन अध्ययन सह-विकास, ग्रेडिएंट बफरिंग और बहुउद्देश्यीय अनुकूलन के महत्व की पुष्टि करते हैं। हम यह भी पुष्टि करते हैं कि यह ढांचा विभिन्न एलएलएम में प्रभावी है। हमारे परिणाम त्वरित इंजेक्शन की सुरक्षा के लिए एक स्केलेबल और प्रभावी दृष्टिकोण के रूप में प्रतिकूल प्रशिक्षण के वादे को उजागर करते हैं।
सबमिशन इतिहास
प्रेषक: कुआन-यी ली [view email]
[v1]
बुध, 27 अगस्त 2025 12:25:45 यूटीसी (1,907 केबी)
[v2]
गुरु, 9 अक्टूबर 2025 04:58:46 यूटीसी (1,185 केबी)