वीआईसीओ: सिमेंटिक अवेयर डायनेमिक हाई-रिज़ॉल्यूशन की दिशा में एक प्रशिक्षण रणनीति

arXiv:2510.12793v1 घोषणा प्रकार: नया सार: मौजूदा मल्टीमॉडल लार्ज लैंग्वेज मॉडल (एमएलएलएम) छवि इनपुट द्वारा पेश किए गए अतिरिक्त विज़न टोकन के कारण बढ़ी हुई अनुमान लागत से ग्रस्त हैं। इस कार्य में, हम विज़ुअल कंसिस्टेंसी लर्निंग (वीआईसीओ) का प्रस्ताव करते हैं, जो एक नया प्रशिक्षण एल्गोरिदम है जो मॉडल को विभिन्न संख्या में विज़न टोकन का उपयोग करके विभिन्न अर्थ संबंधी जटिलताओं की छवियों का प्रतिनिधित्व करने में सक्षम बनाता है। हमारी पद्धति के पीछे मुख्य विचार छवि की अर्थ संबंधी जटिलता के आधार पर विज़न टोकन को डाउनसैंपल करने के लिए कई एमएलपी कनेक्टर्स को नियोजित करना है, जिनमें से प्रत्येक एक अलग छवि संपीड़न अनुपात के साथ है। प्रशिक्षण के दौरान, हम विभिन्न एमएलपी कनेक्टर्स पर वातानुकूलित प्रतिक्रियाओं के बीच केएल विचलन को कम करते हैं। अनुमान के समय, हम एक इमेज राउटर पेश करते हैं, जिसे विज़ुअल रेजोल्यूशन राउटर (वीआईआर) कहा जाता है, जो स्वचालित रूप से प्रत्येक इमेज पैच के लिए उचित संपीड़न दर का चयन करता है। मौजूदा गतिशील उच्च-रिज़ॉल्यूशन रणनीतियों की तुलना में, जो छवि रिज़ॉल्यूशन के आधार पर विज़ुअल टोकन की संख्या को समायोजित करती है, हमारी विधि सिमेंटिक जटिलता के अनुसार विज़ुअल टोकन की संख्या को गतिशील रूप से अनुकूलित करती है। प्रायोगिक परिणाम दर्शाते हैं कि हमारी पद्धति मॉडल की धारणा, तर्क और ओसीआर क्षमताओं को बनाए रखते हुए दृष्टि टोकन की संख्या को 50% तक कम कर सकती है। हमें उम्मीद है कि यह कार्य अधिक कुशल एमएलएलएम के विकास में योगदान देगा। भविष्य के अनुसंधान को सुविधाजनक बनाने के लिए कोड और मॉडल जारी किए जाएंगे।