तार्किक तर्क और परे सीखने के लिए पैमाने पर सत्यापन योग्य तर्क डेटा को संश्लेषित करना

सिनलोगिक नामक पेपर का एक पीडीएफ देखें: जंटेंग लियू और 14 अन्य लेखकों द्वारा तार्किक तर्क और उससे आगे सीखने के लिए पैमाने पर सत्यापन योग्य तर्क डेटा को संश्लेषित करना
पीडीएफ देखें
एचटीएमएल (प्रयोगात्मक)
अमूर्त:Openai-O1 और DeepSeek R1 जैसे हाल के अग्रिमों ने बड़े भाषा मॉडल (LLMS) में तर्क क्षमताओं को बढ़ाने के लिए सुदृढीकरण सीखने (RL) की क्षमता का प्रदर्शन किया है। जबकि ओपन-सोर्स प्रतिकृति प्रयासों ने मुख्य रूप से गणितीय और कोडिंग डोमेन पर ध्यान केंद्रित किया है, सामान्य तर्क क्षमताओं को विकसित करने के लिए विधियों और संसाधनों को अनिर्दिष्ट बना दिया गया है। यह अंतर आंशिक रूप से आरएल के लिए उपयुक्त विविध और सत्यापन योग्य तर्क डेटा एकत्र करने की चुनौती के कारण है। हम इस बात की परिकल्पना करते हैं कि सामान्य तर्क क्षमताओं को विकसित करने के लिए तार्किक तर्क महत्वपूर्ण है, क्योंकि तर्क तर्क का एक मौलिक निर्माण ब्लॉक बनाता है। इस काम में, हम Synlogic, एक डेटा सिंथेसिस फ्रेमवर्क और डेटासेट प्रस्तुत करते हैं जो 35 विविध तार्किक तर्क कार्यों को शामिल करते हुए, पैमाने पर विविध तार्किक तर्क डेटा उत्पन्न करता है। Synlogic दृष्टिकोण समायोज्य कठिनाई और मात्रा के साथ डेटा के नियंत्रित संश्लेषण को सक्षम करता है। महत्वपूर्ण रूप से, सभी उदाहरणों को सरल नियमों द्वारा सत्यापित किया जा सकता है, जिससे वे आदर्श रूप से आरएल के लिए आदर्श रूप से अनुकूल पुरस्कारों के साथ अनुकूल हो जाते हैं। हमारे प्रयोगों में, हम 7B और 32B मॉडल के आधार पर Synlogic डेटासेट पर RL प्रशिक्षण की प्रभावशीलता को मान्य करते हैं। Synlogic ओपन-सोर्स डेटासेट के बीच अत्याधुनिक तार्किक तर्क प्रदर्शन की ओर जाता है, जो BBEH पर 6 अंकों से दीपसेक-R1-Distill-Qwen-32B को पार करता है। इसके अलावा, गणितीय और कोडिंग कार्यों के साथ सिनोलॉजिक डेटा को मिलाकर इन डोमेन की प्रशिक्षण दक्षता में सुधार होता है और सामान्यीकरण को महत्वपूर्ण रूप से बढ़ाता है। विशेष रूप से, हमारे मिश्रित प्रशिक्षण मॉडल ने कई बेंचमार्क में दीपसेक-आर 1-जीरो-क्वेन -32 बी को बेहतर बनाया। ये निष्कर्ष LLMS की व्यापक तर्क क्षमताओं को आगे बढ़ाने के लिए एक मूल्यवान संसाधन के रूप में सिंटोगिक की स्थिति में हैं। हम डेटा सिंथेसिस पाइपलाइन और सिनोलोगिक डेटासेट दोनों को खोलते हैं यह https url।
प्रस्तुत इतिहास
से: जंटेंग लियू [view email]
[v1]
सोम, 26 मई 2025 07:59:36 UTC (382 केबी)
[v2]
Tue, 27 मई 2025 03:03:09 UTC (382 kb)
[v3]
बुध, 28 मई 2025 16:04:03 UTC (424 kb)
[v4]
बुध, 4 जून 2025 05:08:08 UTC (1,157 kb)