खबरे

[2511.19350] सामंजस्य-आधारित मूल्यांकन मीट्रिक के साथ लघु पाठ एम्बेडिंग को क्लस्टर करने के लिए स्केलेबल पैरामीटर-लाइट स्पेक्ट्रल विधि

[2511.19350] सामंजस्य-आधारित मूल्यांकन मीट्रिक के साथ लघु पाठ एम्बेडिंग को क्लस्टर करने के लिए स्केलेबल पैरामीटर-लाइट स्पेक्ट्रल विधि

निकिता नेवेदित्सिन और 2 अन्य लेखकों द्वारा लिखित स्केलेबल पैरामीटर-लाइट स्पेक्ट्रल मेथड फॉर क्लस्टरिंग शॉर्ट टेक्स्ट एंबेडिंग विद ए कोहेसन-बेस्ड इवैल्यूएशन मेट्रिक नामक पेपर का एक पीडीएफ देखें।

पीडीएफ देखें
HTML (प्रयोगात्मक)

अमूर्त:लघु पाठ एम्बेडिंग को क्लस्टर करना प्राकृतिक भाषा प्रसंस्करण में एक मूलभूत कार्य है, फिर भी क्लस्टर की संख्या को पहले से निर्दिष्ट करने की आवश्यकता के कारण चुनौतीपूर्ण बना हुआ है। हम एक स्केलेबल वर्णक्रमीय विधि पेश करते हैं जो लाप्लासियन ईजेनस्पेक्ट्रम की संरचना से सीधे समूहों की संख्या का अनुमान लगाती है, जो कोसाइन समानता का उपयोग करके निर्मित होती है और एक अनुकूली नमूनाकरण रणनीति द्वारा निर्देशित होती है। यह नमूनाकरण दृष्टिकोण हमारे अनुमानक को विश्वसनीयता से समझौता किए बिना बड़े डेटासेट पर कुशलतापूर्वक स्केल करने में सक्षम बनाता है। जमीनी सच्चाई लेबल के बिना क्लस्टर गुणवत्ता के आंतरिक मूल्यांकन का समर्थन करने के लिए, हम सामंजस्य अनुपात का प्रस्ताव करते हैं, एक सरल और व्याख्यात्मक मूल्यांकन मीट्रिक जो यह निर्धारित करता है कि इंट्रा-क्लस्टर समानता वैश्विक समानता पृष्ठभूमि से कितनी अधिक है। इसमें आपसी जानकारी से प्रेरित एक सूचना-सैद्धांतिक प्रेरणा है, और हमारे प्रयोगों में यह सामान्यीकृत पारस्परिक जानकारी और एकरूपता जैसे बाहरी उपायों के साथ निकटता से जुड़ा हुआ है। छह लघु-पाठ डेटासेट और चार आधुनिक एम्बेडिंग मॉडल पर व्यापक प्रयोगों से पता चलता है कि के-मीन्स और एचएसी जैसे मानक एल्गोरिदम, जब हमारे अनुमानक द्वारा निर्देशित होते हैं, तो एचडीबीएससीएएन, ऑप्टिक्स और लीडेन जैसे लोकप्रिय पैरामीटर-लाइट तरीकों से काफी बेहतर प्रदर्शन करते हैं। ये परिणाम बिना पर्यवेक्षित संगठन और लघु पाठ डेटा के मूल्यांकन के लिए हमारे वर्णक्रमीय अनुमानक और सामंजस्य अनुपात के व्यावहारिक मूल्य को प्रदर्शित करते हैं। प्रयोगों को पुन: प्रस्तुत करने के लिए कोड के साथ-साथ k और सामंजस्य अनुपात के हमारे अनुमानक का कार्यान्वयन यहां उपलब्ध है। यह https यूआरएल.

सबमिशन इतिहास

प्रेषक: निकिता नेवेदित्सिन [view email]
[v1]

सोम, 24 नवंबर 2025 17:52:58 यूटीसी (15,125 केबी)
[v2]

मंगलवार, 25 नवंबर 2025 03:40:34 यूटीसी (15,125 केबी)

Share This

COMMENTS

Wordpress (0)
Disqus ( )