खबरे

साझा ज्ञान को अनजान न करें

साझा ज्ञान को अनजान न करें

वोनजे जियौंग और 6 अन्य लेखकों द्वारा डस्क: डू नॉट अनलर्न्स साझा ज्ञान का एक पीडीएफ देखें।

पीडीएफ देखें
एचटीएमएल (प्रयोगात्मक)

अमूर्त:बड़े भाषा मॉडल (LLM) वास्तविक दुनिया के अनुप्रयोगों में तेजी से तैनात हैं, कॉपीराइट या संवेदनशील डेटा के अनधिकृत उपयोग के बारे में चिंताओं को बढ़ाते हैं। मशीन अनलिसिंग का उद्देश्य इस तरह के ‘भूल’ डेटा को हटाना है, जबकि उपयोगिता और जानकारी को ‘रिटेन’ सेट से संरक्षित करते हैं। हालांकि, मौजूदा मूल्यांकन आम तौर पर मानते हैं कि सेट को भूल जाते हैं और बनाए रखने से पूरी तरह से असंतुष्ट होते हैं, यथार्थवादी परिदृश्यों को देखते हुए जहां वे अतिव्यापी सामग्री साझा करते हैं। उदाहरण के लिए, एक समाचार लेख को अनसुना करने की आवश्यकता हो सकती है, भले ही जापान में भूकंप के रूप में एक ही घटना, विकिपीडिया पर भी तथ्यात्मक रूप से वर्णित है। सार्वजनिक रूप से समर्थित तथ्यों को संरक्षित करते हुए प्रभावी अनलिंग को समाचार लेख के विशिष्ट वाक्यांश को हटाना चाहिए। इस पत्र में, हम डस्क का परिचय देते हैं, जो एक बेंचमार्क है जिसे यथार्थवादी डेटा ओवरलैप के तहत अनलेरिंग विधियों का मूल्यांकन करने के लिए डिज़ाइन किया गया है। Dusk का निर्माण दस्तावेज़ सेट करता है जो विभिन्न शैलियों में एक ही तथ्यात्मक सामग्री का वर्णन करता है, जिसमें कुछ साझा जानकारी सभी सेटों और अन्य सामग्री में प्रत्येक के लिए अद्वितीय है। जब एक सेट को अनलिसिंग के लिए नामित किया जाता है, तो एक आदर्श विधि को साझा तथ्यों को संरक्षित करते हुए अपनी अद्वितीय सामग्री को हटा देना चाहिए। हम यह आकलन करने के लिए सात मूल्यांकन मैट्रिक्स को परिभाषित करते हैं कि क्या अनलिंग तरीके इस चयनात्मक हटाने को प्राप्त कर सकते हैं। नौ हालिया अनलिंग विधियों के हमारे मूल्यांकन से एक महत्वपूर्ण सीमा का पता चलता है: जबकि अधिकांश सतह-स्तरीय पाठ को हटा सकते हैं, वे अक्सर साझा सामग्री को नुकसान पहुंचाए बिना गहरे, संदर्भ-विशिष्ट ज्ञान को मिटाने में विफल होते हैं। हम वास्तविक दुनिया के अनुप्रयोगों के लिए अधिक सटीक और विश्वसनीय अनलिंग तकनीकों के विकास का समर्थन करने के लिए एक सार्वजनिक बेंचमार्क के रूप में शाम को छोड़ते हैं।

प्रस्तुत इतिहास

से: वोनजे जियुंग [view email]
[v1]

बुध, 21 मई 2025 07:37:35 UTC (2,730 kb)
[v2]

Tue, 27 मई 2025 08:11:39 UTC (2,730 kb)
[v3]

सत, 31 मई 2025 04:26:58 यूटीसी (2,730 केबी)

Share This

COMMENTS

Wordpress (0)
Disqus ( )