खबरे

तेलुगुएसटी-46: तेलुगु-अंग्रेजी भाषण अनुवाद के लिए एक बेंचमार्क कॉर्पस और व्यापक मूल्यांकन

तेलुगुएसटी-46: तेलुगु-अंग्रेजी भाषण अनुवाद के लिए एक बेंचमार्क कॉर्पस और व्यापक मूल्यांकन

arXiv:2512.07265v1 घोषणा प्रकार: नया सार: 80 मिलियन से अधिक लोगों द्वारा तेलुगु बोली जाने के बावजूद, इस रूपात्मक रूप से समृद्ध भाषा के लिए भाषण अनुवाद अनुसंधान गंभीर रूप से कम खोजा गया है। हम 46 घंटे के मैन्युअल रूप से सत्यापित सीएसटीडी कॉर्पस डेटा (30 घंटे/8 घंटे/8 घंटे ट्रेन/डेव/टेस्ट स्प्लिट) से उच्च गुणवत्ता वाले तेलुगु-अंग्रेजी भाषण अनुवाद बेंचमार्क विकसित करके इस अंतर को संबोधित करते हैं। कैस्केड बनाम एंड-टू-एंड आर्किटेक्चर की हमारी व्यवस्थित तुलना से पता चलता है कि जहां इंडिकव्हिस्पर + इंडिकएमटी ​​व्यापक तेलुगु-विशिष्ट प्रशिक्षण डेटा के कारण उच्चतम प्रदर्शन प्राप्त करता है, वहीं परिष्कृत सीमलेसएम4टी मॉडल काफी कम तेलुगु-विशिष्ट प्रशिक्षण डेटा का उपयोग करने के बावजूद उल्लेखनीय प्रतिस्पर्धात्मकता प्रदर्शित करते हैं। इस खोज से पता चलता है कि सावधानीपूर्वक हाइपरपैरामीटर ट्यूनिंग और पर्याप्त समानांतर डेटा (संभावित रूप से 100 घंटे से कम) के साथ, एंड-टू-एंड सिस्टम कम-संसाधन सेटिंग्स में कैस्केड दृष्टिकोण के बराबर प्रदर्शन प्राप्त कर सकते हैं। मानवीय निर्णयों के विरुद्ध BLEU, METEOR, ChrF++, ROUGE-L, TER, और BERTScore का मूल्यांकन करने वाले हमारे मीट्रिक विश्वसनीयता अध्ययन से पता चलता है कि पारंपरिक मेट्रिक्स तेलुगु-अंग्रेजी अनुवाद के लिए BERTScore की तुलना में बेहतर गुणवत्ता भेदभाव प्रदान करते हैं। कार्य तीन प्रमुख योगदान देता है: एक प्रतिलिपि प्रस्तुत करने योग्य तेलुगु-अंग्रेजी बेंचमार्क, कम-संसाधन परिदृश्यों में प्रतिस्पर्धी एंड-टू-एंड प्रदर्शन क्षमता का अनुभवजन्य साक्ष्य, और रूपात्मक रूप से जटिल भाषा जोड़े में स्वचालित मूल्यांकन के लिए व्यावहारिक मार्गदर्शन।

Share This

COMMENTS

Wordpress (0)
Disqus ( )