बड़ी भाषा मॉडल में मौलिक संख्यात्मक क्षमताओं का मूल्यांकन करने के लिए एक बेंचमार्क

हयांग ली और 10 अन्य लेखकों द्वारा बड़े भाषा मॉडल में मौलिक संख्यात्मक क्षमताओं का मूल्यांकन करने के लिए एक बेंचमार्क का मूल्यांकन: एक बेंचमार्क नामक पेपर का एक पीडीएफ देखें।
पीडीएफ देखें
एचटीएमएल (प्रयोगात्मक)
अमूर्त:बड़े भाषा मॉडल (LLMS) ने प्राकृतिक भाषा प्रसंस्करण कार्यों में प्रभावशाली क्षमताओं का प्रदर्शन किया है, जैसे कि पाठ उत्पादन और शब्दार्थ समझ। हालांकि, संख्यात्मक तर्क कार्यों पर उनका प्रदर्शन, जैसे कि बुनियादी अंकगणित, संख्यात्मक पुनर्प्राप्ति और परिमाण तुलना, आश्चर्यजनक रूप से गरीब बना हुआ है। यह अंतर निरंतर परिमाण के रूप में संख्याओं को समझने के बजाय सतह-स्तरीय सांख्यिकीय पैटर्न पर उनकी निर्भरता से उत्पन्न होता है। मौजूदा बेंचमार्क मुख्य रूप से या तो भाषाई क्षमता या संरचित गणितीय समस्या-समाधान पर ध्यान केंद्रित करते हैं, वास्तविक दुनिया के परिदृश्यों में आवश्यक मौलिक संख्यात्मक तर्क की उपेक्षा करते हैं। इस अंतर को पाटने के लिए, हम छह मौलिक संख्यात्मक क्षमताओं का मूल्यांकन करने के लिए एक व्यापक बेंचमार्क न्यूमेरिकबेंच का प्रस्ताव करते हैं: संख्या मान्यता, अंकगणितीय संचालन, प्रासंगिक पुनर्प्राप्ति, तुलना, सारांश और तार्किक तर्क। न्यूमेरिकबेंच में सिंथेटिक नंबर सूचियों से लेकर क्रॉल किए गए वास्तविक दुनिया के डेटा तक, लंबे संदर्भों, शोर और बहु-चरणीय तर्क जैसी चुनौतियों को संबोधित करते हुए डेटासेट शामिल हैं। जीपीटी -4 और डीपसेक सहित अत्याधुनिक एलएलएम पर व्यापक प्रयोग, संख्यात्मक तर्क में लगातार कमजोरियों को प्रकट करते हैं, जो संख्यात्मक रूप से जागरूक भाषा मॉडलिंग में सुधार करने की तत्काल आवश्यकता को उजागर करते हैं। बेंचमार्क जारी किया गया है: यह https url।
प्रस्तुत इतिहास
से: हयंग ली [view email]
[v1]
सूर्य, 16 फरवरी 2025 10:48:28 UTC (8,160 kb)
[v2]
टीयू, 3 जून 2025 09:47:24 यूटीसी (560 केबी)