खबरे

वीआईसीओ: सिमेंटिक अवेयर डायनेमिक हाई-रिज़ॉल्यूशन की दिशा में एक प्रशिक्षण रणनीति

वीआईसीओ: सिमेंटिक अवेयर डायनेमिक हाई-रिज़ॉल्यूशन की दिशा में एक प्रशिक्षण रणनीति

arXiv:2510.12793v1 घोषणा प्रकार: नया सार: मौजूदा मल्टीमॉडल लार्ज लैंग्वेज मॉडल (एमएलएलएम) छवि इनपुट द्वारा पेश किए गए अतिरिक्त विज़न टोकन के कारण बढ़ी हुई अनुमान लागत से ग्रस्त हैं। इस कार्य में, हम विज़ुअल कंसिस्टेंसी लर्निंग (वीआईसीओ) का प्रस्ताव करते हैं, जो एक नया प्रशिक्षण एल्गोरिदम है जो मॉडल को विभिन्न संख्या में विज़न टोकन का उपयोग करके विभिन्न अर्थ संबंधी जटिलताओं की छवियों का प्रतिनिधित्व करने में सक्षम बनाता है। हमारी पद्धति के पीछे मुख्य विचार छवि की अर्थ संबंधी जटिलता के आधार पर विज़न टोकन को डाउनसैंपल करने के लिए कई एमएलपी कनेक्टर्स को नियोजित करना है, जिनमें से प्रत्येक एक अलग छवि संपीड़न अनुपात के साथ है। प्रशिक्षण के दौरान, हम विभिन्न एमएलपी कनेक्टर्स पर वातानुकूलित प्रतिक्रियाओं के बीच केएल विचलन को कम करते हैं। अनुमान के समय, हम एक इमेज राउटर पेश करते हैं, जिसे विज़ुअल रेजोल्यूशन राउटर (वीआईआर) कहा जाता है, जो स्वचालित रूप से प्रत्येक इमेज पैच के लिए उचित संपीड़न दर का चयन करता है। मौजूदा गतिशील उच्च-रिज़ॉल्यूशन रणनीतियों की तुलना में, जो छवि रिज़ॉल्यूशन के आधार पर विज़ुअल टोकन की संख्या को समायोजित करती है, हमारी विधि सिमेंटिक जटिलता के अनुसार विज़ुअल टोकन की संख्या को गतिशील रूप से अनुकूलित करती है। प्रायोगिक परिणाम दर्शाते हैं कि हमारी पद्धति मॉडल की धारणा, तर्क और ओसीआर क्षमताओं को बनाए रखते हुए दृष्टि टोकन की संख्या को 50% तक कम कर सकती है। हमें उम्मीद है कि यह कार्य अधिक कुशल एमएलएलएम के विकास में योगदान देगा। भविष्य के अनुसंधान को सुविधाजनक बनाने के लिए कोड और मॉडल जारी किए जाएंगे।

Share This

COMMENTS

Wordpress (0)
Disqus ( )