खबरे

[2509.19185] ओपन सोर्स एआई एजेंट फ्रेमवर्क और एजेंटिक एप्लिकेशन में परीक्षण प्रथाओं का एक अनुभवजन्य अध्ययन

[2509.19185] ओपन सोर्स एआई एजेंट फ्रेमवर्क और एजेंटिक एप्लिकेशन में परीक्षण प्रथाओं का एक अनुभवजन्य अध्ययन

मोहम्मद मेहेदी हसन और हाओ ली और इमाद फालाहजादेह और गोपी कृष्णन राजबाहदुर और ब्राम एडम्स और अहमद ई। हसन द्वारा ओपन सोर्स एआई एजेंट फ्रेमवर्क और एजेंटिक अनुप्रयोगों में परीक्षण प्रथाओं के एक अनुभवजन्य अध्ययन के एक पीडीएफ को देखें।

पीडीएफ देखें
एचटीएमएल (प्रयोगात्मक)

अमूर्त:फाउंडेशन मॉडल (एफएम) -बेड एआई एजेंट तेजी से विविध डोमेन में गोद ले रहे हैं, लेकिन उनके अंतर्निहित गैर-डिलेक्टिज़्म और गैर-प्रजनन योग्यता मुद्रा परीक्षण और गुणवत्ता आश्वासन चुनौतियों का सामना करना पड़ रहा है। जबकि हाल के बेंचमार्क कार्य-स्तरीय मूल्यांकन प्रदान करते हैं, इस बात की सीमित समझ है कि डेवलपर्स विकास के दौरान इन एजेंटों की आंतरिक शुद्धता को कैसे सत्यापित करते हैं।

इस अंतर को संबोधित करने के लिए, हम एआई एजेंट पारिस्थितिकी तंत्र में परीक्षण प्रथाओं के पहले बड़े पैमाने पर अनुभवजन्य अध्ययन का संचालन करते हैं, 39 ओपन-सोर्स एजेंट फ्रेमवर्क और 439 एजेंटिक अनुप्रयोगों का विश्लेषण करते हैं। हम दस अलग-अलग परीक्षण पैटर्न की पहचान करते हैं और पाते हैं कि उपन्यास, एजेंट-विशिष्ट तरीकों जैसे डीपवेल का उपयोग शायद ही कभी किया जाता है (लगभग 1%), जबकि पारंपरिक पैटर्न जैसे नकारात्मक और सदस्यता परीक्षण को व्यापक रूप से एफएम अनिश्चितता का प्रबंधन करने के लिए अनुकूलित किया जाता है। एजेंट फ्रेमवर्क और एजेंटिक अनुप्रयोगों के कैनोनिकल आर्किटेक्चरल घटकों के लिए इन पैटर्नों को मैप करके, हम परीक्षण प्रयास के एक मौलिक व्युत्क्रम को उजागर करते हैं: संसाधन कलाकृतियों (उपकरण) और समन्वय कलाकृतियों (वर्कफ़्लो) जैसे नियतात्मक घटक परीक्षण के 70% से अधिक का उपभोग करते हैं, जबकि एफएम-आधारित योजना शरीर 5% से कम प्राप्त करता है। गंभीर रूप से, यह एक महत्वपूर्ण अंधा स्थान को प्रकट करता है, क्योंकि ट्रिगर घटक (संकेत) उपेक्षित रहता है, सभी परीक्षणों के लगभग 1% में दिखाई देता है।

हमारे निष्कर्ष एफएम-आधारित एजेंट फ्रेमवर्क और एजेंटिक अनुप्रयोगों में पहला अनुभवजन्य परीक्षण बेसलाइन प्रदान करते हैं, जो गैर-नियतावाद के लिए एक तर्कसंगत लेकिन अपूर्ण अनुकूलन का खुलासा करते हैं। इसे संबोधित करने के लिए, फ्रेमवर्क डेवलपर्स को उपन्यास परीक्षण विधियों के लिए समर्थन में सुधार करना चाहिए, एप्लिकेशन डेवलपर्स को शीघ्र प्रतिगमन परीक्षण को अपनाना चाहिए, और शोधकर्ताओं को गोद लेने के लिए बाधाओं का पता लगाना चाहिए। इन प्रथाओं को मजबूत करना अधिक मजबूत और भरोसेमंद एआई एजेंटों के निर्माण के लिए महत्वपूर्ण है।

प्रस्तुत इतिहास

से: मोहम्मद मेहेदी हसन [view email]
[v1]

टीयू, 23 सितंबर 2025 16:02:09 यूटीसी (450 केबी)
[v2]

बुध, 24 सितंबर 2025 14:15:20 UTC (450 kb)

Share This

COMMENTS

Wordpress (0)
Disqus ( )