तेलुगुएसटी-46: तेलुगु-अंग्रेजी भाषण अनुवाद के लिए एक बेंचमार्क कॉर्पस और व्यापक मूल्यांकन

December 9, 2025 10:01 pm 0

arXiv:2512.07265v1 घोषणा प्रकार: नया सार: 80 मिलियन से अधिक लोगों द्वारा तेलुगु बोली जाने के बावजूद, इस रूपात्मक रूप से समृद्ध भाषा के लिए भाषण अनुवाद अनुसंधान गंभीर रूप से कम खोजा गया है। हम 46 घंटे के मैन्युअल रूप से सत्यापित सीएसटीडी कॉर्पस डेटा (30 घंटे/8 घंटे/8 घंटे ट्रेन/डेव/टेस्ट स्प्लिट) से उच्च गुणवत्ता वाले तेलुगु-अंग्रेजी भाषण अनुवाद बेंचमार्क विकसित करके इस अंतर को संबोधित करते हैं। कैस्केड बनाम एंड-टू-एंड आर्किटेक्चर की हमारी व्यवस्थित तुलना से पता चलता है कि जहां इंडिकव्हिस्पर + इंडिकएमटी व्यापक तेलुगु-विशिष्ट प्रशिक्षण डेटा के कारण उच्चतम प्रदर्शन प्राप्त करता है, वहीं परिष्कृत सीमलेसएम4टी मॉडल काफी कम तेलुगु-विशिष्ट प्रशिक्षण डेटा का उपयोग करने के बावजूद उल्लेखनीय प्रतिस्पर्धात्मकता प्रदर्शित करते हैं। इस खोज से पता चलता है कि सावधानीपूर्वक हाइपरपैरामीटर ट्यूनिंग और पर्याप्त समानांतर डेटा (संभावित रूप से 100 घंटे से कम) के साथ, एंड-टू-एंड सिस्टम कम-संसाधन सेटिंग्स में कैस्केड दृष्टिकोण के बराबर प्रदर्शन प्राप्त कर सकते हैं। मानवीय निर्णयों के विरुद्ध BLEU, METEOR, ChrF++, ROUGE-L, TER, और BERTScore का मूल्यांकन करने वाले हमारे मीट्रिक विश्वसनीयता अध्ययन से पता चलता है कि पारंपरिक मेट्रिक्स तेलुगु-अंग्रेजी अनुवाद के लिए BERTScore की तुलना में बेहतर गुणवत्ता भेदभाव प्रदान करते हैं। कार्य तीन प्रमुख योगदान देता है: एक प्रतिलिपि प्रस्तुत करने योग्य तेलुगु-अंग्रेजी बेंचमार्क, कम-संसाधन परिदृश्यों में प्रतिस्पर्धी एंड-टू-एंड प्रदर्शन क्षमता का अनुभवजन्य साक्ष्य, और रूपात्मक रूप से जटिल भाषा जोड़े में स्वचालित मूल्यांकन के लिए व्यावहारिक मार्गदर्शन।

THE POST RECOMMENDS

तार्किक तर्क और परे सीखने के लिए पैमाने पर सत्यापन योग्य तर्क डेटा को संश्लेषित करना

News Source - June 5, 2025

<Submitted on 26 May 2025 (v1), last revised 4 Jun 2025 (this version, v4)> लेखक:जंटेंग लियू, Yuanxiang प्रशंसक, झू जियांग, हान डिंग, योंगी हू, ची ... Read More

बैकप्रोपेगेशन के बिना आगे-आगे सीखने को आगे बढ़ाना और बढ़ाना

News Source - January 26, 2026

<Submitted on 15 Sep 2025 (v1), last revised 22 Jan 2026 (this version, v2)> किंगचुन गोंग और 2 अन्य लेखकों द्वारा लिखित एडेप्टिव स्पैटियल गुडनेस ... Read More

कम्प्युटर Repairing अशानी से सीख सकते है

IBCNEWS aaptak - June 25, 2022

https://www.youtube.com/c/SystemLife/videos?sub_confirmation=1 हिन्दी भाषा मे कम्प्युटर सीखने के लिए https://www.youtube.com/c/SystemLife/videos?sub_confirmation=1 इस लिंक पर क्लिक करके subscribe कर लीजिये ताकि आप को नई विडियो और कम्प्युटर से ... Read More

खबरे

UFC फाइट नाइट 268 के लिए मार्लन वेरा बनाम डेविड मार्टिनेज भविष्यवाणी

डोम

फ़ायरफ़ॉक्स में AI सुविधाओं को कैसे बंद करें, या जो आप चाहते हैं उसे चुनें

क्रेन ब्रिंटन द्वारा क्रांति की शारीरिक रचना

[2602.15457] इवेंट-स्तरीय संवर्द्धन के साथ IoT टाइम-सीरीज़ AD को बेंचमार्क करना

विंबलडन अगले साल लाइन जजों को एआई, इलेक्ट्रॉनिक लाइन कॉलिंग से बदल देगा

भारतीय क्रिकेटर ईशान किशन के पिता प्रणव पांडे जदयू में शामिल

मुस्कान के पीछे.एनोनिम्स लैचेलन

कैप्रल FY2025 में गिरावट: वॉल्यूम संबंधी बाधाओं के बावजूद आय में 4% की बढ़ोतरी

‘स्पीकर ऑफ द नेसेट मेडल’: पीएम मोदी को इजरायल के सर्वोच्च संसदीय सम्मान से सम्मानित किया गया | भारत समाचार

[2504.18831] पीएसआई में उच्च तीव्रता म्यूऑन बीम सुविधा पर भविष्य के $μ^+ \to \mathrm{e}^+ γ$ प्रयोग के लिए आशय पत्र

कलशी ने मिस्टरबीस्ट के संपादक पर इनसाइडर ट्रेडिंग का आरोप लगाया: एनपीआर

[2602.21182] ओपन एटॉमिक ईथरनेट के साथ सीएपी प्रमेय को दरकिनार करना

Mz-wi

तेलुगुएसटी-46: तेलुगु-अंग्रेजी भाषण अनुवाद के लिए एक बेंचमार्क कॉर्पस और व्यापक मूल्यांकन

तार्किक तर्क और परे सीखने के लिए पैमाने पर सत्यापन योग्य तर्क डेटा को संश्लेषित करना

बैकप्रोपेगेशन के बिना आगे-आगे सीखने को आगे बढ़ाना और बढ़ाना

कम्प्युटर Repairing अशानी से सीख सकते है

COMMENTS

Leave a Reply Cancel reply

जेम्स ट्रैफर्ड: मैन सिटी कीपर ‘देर-सवेर’ इंग्लैंड का नंबर एक खिलाड़ी होगा

UFC फाइट नाइट 268 के लिए मार्लन वेरा बनाम डेविड मार्टिनेज भविष्यवाणी

डोम