खबरे

[2512.07287] हाइब्रिड एपिसोडिक-प्रक्रियात्मक मेमोरी के साथ अनुभव-विकसित मल्टी-टर्न टूल-उपयोग एजेंट

[2512.07287] हाइब्रिड एपिसोडिक-प्रक्रियात्मक मेमोरी के साथ अनुभव-विकसित मल्टी-टर्न टूल-उपयोग एजेंट

सिजिया ली और 8 अन्य लेखकों द्वारा हाइब्रिड एपिसोडिक-प्रोसीजरल मेमोरी के साथ एक्सपीरियंस-इवॉल्विंग मल्टी-टर्न टूल-यूज़ एजेंट शीर्षक वाले पेपर का एक पीडीएफ देखें।

पीडीएफ देखें
HTML (प्रयोगात्मक)

अमूर्त:जैसे-जैसे इरादे सामने आते हैं और माहौल बदलता है, मल्टी-टर्न एजेंटों को लगातार बदलते निर्णय संदर्भों का सामना करना पड़ता है। यद्यपि पिछले अनुभव का पुन: उपयोग सहज रूप से आकर्षक है, मौजूदा दृष्टिकोण सीमित रहते हैं: पूर्ण प्रक्षेपवक्र अक्सर स्थानांतरण के लिए बहुत अधिक संदर्भ-विशिष्ट होते हैं, जबकि उपकरण-स्तर का पुन: उपयोग आसपास के संदर्भ और वातावरण को अनदेखा करता है। इस पेपर में, हम एक हाइब्रिड एपिसोडिक-प्रक्रियात्मक मेमोरी रणनीति (एच-ईपीएम) पेश करते हैं जो अनुमान और प्रशिक्षण दोनों के दौरान आंशिक रूप से ओवरलैपिंग सफल अनुभवों को अनुकूल रूप से पुन: उपयोग करके मल्टी-टर्न टूल-उपयोग नीतियों के अनुभव-प्रेरित स्व-विकास को सक्षम बनाता है। मानव एपिसोडिक-प्रक्रियात्मक एकीकरण से प्रेरित होकर, हम संचित प्रक्षेप पथों से एक टूल ग्राफ़ का निर्माण करते हैं, जहां आवर्ती टूल-टू-टूल निर्भरताएं प्रक्रियात्मक दिनचर्या को पकड़ती हैं और प्रत्येक किनारे को प्रासंगिक संदर्भ के कॉम्पैक्ट एपिसोडिक सारांश के साथ संवर्धित किया जाता है। अनुमान के समय, एजेंट नियमित चरणों के लिए प्रक्रियात्मक निष्पादन के साथ प्रासंगिक तर्क के लिए एपिसोडिक रिकॉल को गतिशील रूप से संतुलित करता है। अनुमान से परे, एच-ईपीएम एक मेमोरी-निर्देशित सुदृढीकरण सीखने के प्रतिमान का परिचय देता है जो सीधे मल्टी-टर्न एजेंट सुदृढीकरण सीखने में एक मुख्य चुनौती को संबोधित करता है, अर्थात् लंबे प्रक्षेपवक्र पर अप्रभावी अन्वेषण। ऐतिहासिक रूप से सफल टूल ट्रांज़िशन की ओर अन्वेषण को पूर्वाग्रहित करके, एच-ईपीएम एक मजबूत नीति सीखता है जो डोमेन-विशिष्ट अनुभव संग्रह पर भरोसा किए बिना अनुमान समय पर सामान्यीकरण करता है। प्रयोगों से पता चलता है कि एच-ईपीएम लगातार मल्टी-टर्न टूल-उपयोग बेंचमार्क में मजबूत आधार रेखाओं पर पर्याप्त अनुमान-समय लाभ प्रदान करता है, जो पचास प्रतिशत तक सुधार तक पहुंचता है। यह सुदृढीकरण सीखने की नीति के प्रदर्शन में भी सुधार करता है, वितरण से बाहर के कार्यों पर चालीस प्रतिशत तक का लाभ प्राप्त करता है।

सबमिशन इतिहास

प्रेषक: सिजिया ली [view email]
[v1]

सोम, 8 दिसंबर 2025 08:27:24 यूटीसी (2,130 केबी)
[v2]

शुक्र, 30 जनवरी 2026 08:30:31 यूटीसी (2,893 केबी)

Share This

COMMENTS

Wordpress (0)
Disqus ( )