[2511.19350] सामंजस्य-आधारित मूल्यांकन मीट्रिक के साथ लघु पाठ एम्बेडिंग को क्लस्टर करने के लिए स्केलेबल पैरामीटर-लाइट स्पेक्ट्रल विधि
![[2511.19350] सामंजस्य-आधारित मूल्यांकन मीट्रिक के साथ लघु पाठ एम्बेडिंग को क्लस्टर करने के लिए स्केलेबल पैरामीटर-लाइट स्पेक्ट्रल विधि [2511.19350] सामंजस्य-आधारित मूल्यांकन मीट्रिक के साथ लघु पाठ एम्बेडिंग को क्लस्टर करने के लिए स्केलेबल पैरामीटर-लाइट स्पेक्ट्रल विधि](https://ibcnewsaaptak.com/wp-content/uploads/2025/06/arxiv-logo-fb.png)
निकिता नेवेदित्सिन और 2 अन्य लेखकों द्वारा लिखित स्केलेबल पैरामीटर-लाइट स्पेक्ट्रल मेथड फॉर क्लस्टरिंग शॉर्ट टेक्स्ट एंबेडिंग विद ए कोहेसन-बेस्ड इवैल्यूएशन मेट्रिक नामक पेपर का एक पीडीएफ देखें।
पीडीएफ देखें
HTML (प्रयोगात्मक)
अमूर्त:लघु पाठ एम्बेडिंग को क्लस्टर करना प्राकृतिक भाषा प्रसंस्करण में एक मूलभूत कार्य है, फिर भी क्लस्टर की संख्या को पहले से निर्दिष्ट करने की आवश्यकता के कारण चुनौतीपूर्ण बना हुआ है। हम एक स्केलेबल वर्णक्रमीय विधि पेश करते हैं जो लाप्लासियन ईजेनस्पेक्ट्रम की संरचना से सीधे समूहों की संख्या का अनुमान लगाती है, जो कोसाइन समानता का उपयोग करके निर्मित होती है और एक अनुकूली नमूनाकरण रणनीति द्वारा निर्देशित होती है। यह नमूनाकरण दृष्टिकोण हमारे अनुमानक को विश्वसनीयता से समझौता किए बिना बड़े डेटासेट पर कुशलतापूर्वक स्केल करने में सक्षम बनाता है। जमीनी सच्चाई लेबल के बिना क्लस्टर गुणवत्ता के आंतरिक मूल्यांकन का समर्थन करने के लिए, हम सामंजस्य अनुपात का प्रस्ताव करते हैं, एक सरल और व्याख्यात्मक मूल्यांकन मीट्रिक जो यह निर्धारित करता है कि इंट्रा-क्लस्टर समानता वैश्विक समानता पृष्ठभूमि से कितनी अधिक है। इसमें आपसी जानकारी से प्रेरित एक सूचना-सैद्धांतिक प्रेरणा है, और हमारे प्रयोगों में यह सामान्यीकृत पारस्परिक जानकारी और एकरूपता जैसे बाहरी उपायों के साथ निकटता से जुड़ा हुआ है। छह लघु-पाठ डेटासेट और चार आधुनिक एम्बेडिंग मॉडल पर व्यापक प्रयोगों से पता चलता है कि के-मीन्स और एचएसी जैसे मानक एल्गोरिदम, जब हमारे अनुमानक द्वारा निर्देशित होते हैं, तो एचडीबीएससीएएन, ऑप्टिक्स और लीडेन जैसे लोकप्रिय पैरामीटर-लाइट तरीकों से काफी बेहतर प्रदर्शन करते हैं। ये परिणाम बिना पर्यवेक्षित संगठन और लघु पाठ डेटा के मूल्यांकन के लिए हमारे वर्णक्रमीय अनुमानक और सामंजस्य अनुपात के व्यावहारिक मूल्य को प्रदर्शित करते हैं। प्रयोगों को पुन: प्रस्तुत करने के लिए कोड के साथ-साथ k और सामंजस्य अनुपात के हमारे अनुमानक का कार्यान्वयन यहां उपलब्ध है। यह https यूआरएल.
सबमिशन इतिहास
प्रेषक: निकिता नेवेदित्सिन [view email]
[v1]
सोम, 24 नवंबर 2025 17:52:58 यूटीसी (15,125 केबी)
[v2]
मंगलवार, 25 नवंबर 2025 03:40:34 यूटीसी (15,125 केबी)
