खबरे

ग्राफपैड: इंफ्रेंस-टाइम 3 डी सीन ग्राफ अद्यतन के लिए सन्निहित प्रश्न उत्तर देने के लिए

ग्राफपैड: इंफ्रेंस-टाइम 3 डी सीन ग्राफ अद्यतन के लिए सन्निहित प्रश्न उत्तर देने के लिए

ARXIV: 2506.01174V1 घोषणा प्रकार: नया सार: संरचित दृश्य अभ्यावेदन सन्निहित एजेंटों का एक मुख्य घटक है, जो कच्चे संवेदी धाराओं को पठनीय, मॉड्यूलर और खोज योग्य प्रारूपों में समेकित करने में मदद करता है। उनके उच्च कम्प्यूटेशनल ओवरहेड के कारण, कई दृष्टिकोण कार्य से पहले ऐसे अभ्यावेदन का निर्माण करते हैं। हालाँकि, जब कार्य विनिर्देश बदलते हैं, तो ऐसे स्थिर दृष्टिकोण अपर्याप्त हो जाते हैं क्योंकि वे प्रमुख वस्तुओं, स्थानिक संबंधों और विवरणों को याद कर सकते हैं। हम ग्राफपैड का परिचय देते हैं, जो एक परिवर्तनीय संरचित मेमोरी है जो एक एजेंट एपीआई कॉल के माध्यम से कार्य की जरूरतों के लिए दर्जी कर सकता है। इसमें पर्यावरण का प्रतिनिधित्व करने वाला एक उत्परिवर्तनीय दृश्य ग्राफ, एक नेविगेशन लॉग इंडेक्सिंग फ्रेम-बाय-फ्रेम सामग्री और कार्य-विशिष्ट नोटों के लिए एक स्क्रैचपैड शामिल है। साथ में, ग्राफपैड एक गतिशील कार्यक्षेत्र के रूप में कार्य करता है जो कि दृश्य और उसके कार्य के एजेंट की तत्काल समझ के साथ पूर्ण, वर्तमान और संरेखित रहता है। OpenEQA बेंचमार्क पर, ग्राफपैड 55.3% प्राप्त करता है, एक ही दृष्टि-भाषा मॉडल का उपयोग करके एक छवि-केवल आधार रेखा पर +3.0% वृद्धि, जबकि पांच गुना कम इनपुट फ्रेम के साथ काम करती है। इन परिणामों से पता चलता है कि 3-डी मेमोरी के ऑनलाइन, भाषा-संचालित शोधन की अनुमति अतिरिक्त प्रशिक्षण या डेटा संग्रह के बिना अधिक जानकारीपूर्ण प्रतिनिधित्व पैदा करती है।

Share This

COMMENTS

Wordpress (0)
Disqus ( )