ग्राफपैड: इंफ्रेंस-टाइम 3 डी सीन ग्राफ अद्यतन के लिए सन्निहित प्रश्न उत्तर देने के लिए

ARXIV: 2506.01174V1 घोषणा प्रकार: नया सार: संरचित दृश्य अभ्यावेदन सन्निहित एजेंटों का एक मुख्य घटक है, जो कच्चे संवेदी धाराओं को पठनीय, मॉड्यूलर और खोज योग्य प्रारूपों में समेकित करने में मदद करता है। उनके उच्च कम्प्यूटेशनल ओवरहेड के कारण, कई दृष्टिकोण कार्य से पहले ऐसे अभ्यावेदन का निर्माण करते हैं। हालाँकि, जब कार्य विनिर्देश बदलते हैं, तो ऐसे स्थिर दृष्टिकोण अपर्याप्त हो जाते हैं क्योंकि वे प्रमुख वस्तुओं, स्थानिक संबंधों और विवरणों को याद कर सकते हैं। हम ग्राफपैड का परिचय देते हैं, जो एक परिवर्तनीय संरचित मेमोरी है जो एक एजेंट एपीआई कॉल के माध्यम से कार्य की जरूरतों के लिए दर्जी कर सकता है। इसमें पर्यावरण का प्रतिनिधित्व करने वाला एक उत्परिवर्तनीय दृश्य ग्राफ, एक नेविगेशन लॉग इंडेक्सिंग फ्रेम-बाय-फ्रेम सामग्री और कार्य-विशिष्ट नोटों के लिए एक स्क्रैचपैड शामिल है। साथ में, ग्राफपैड एक गतिशील कार्यक्षेत्र के रूप में कार्य करता है जो कि दृश्य और उसके कार्य के एजेंट की तत्काल समझ के साथ पूर्ण, वर्तमान और संरेखित रहता है। OpenEQA बेंचमार्क पर, ग्राफपैड 55.3% प्राप्त करता है, एक ही दृष्टि-भाषा मॉडल का उपयोग करके एक छवि-केवल आधार रेखा पर +3.0% वृद्धि, जबकि पांच गुना कम इनपुट फ्रेम के साथ काम करती है। इन परिणामों से पता चलता है कि 3-डी मेमोरी के ऑनलाइन, भाषा-संचालित शोधन की अनुमति अतिरिक्त प्रशिक्षण या डेटा संग्रह के बिना अधिक जानकारीपूर्ण प्रतिनिधित्व पैदा करती है।