फ़ायरफ़ॉक्स के शेक को सारांशित करने के लिए AI शक्ति प्रदान करता है


हमने हाल ही में फ़ायरफ़ॉक्स आईओएस मोबाइल ऐप में एक फीचर जारी किया है जिसका नाम है “संक्षेप में बताने के लिए हिलाएँ”। स्वागत उल्लेखनीय रूप से सकारात्मक था, जिसने सम्मानजनक उल्लेख अर्जित किया टाइम मैगज़ीन के 2025 के सर्वश्रेष्ठ आविष्कार.
शेक टू समराइज़ से अपरिचित किसी भी व्यक्ति के लिए, यह नाम का ही अर्थ है: जब आप कोई वेबपेज ब्राउज़ कर रहे हों, तो आप पेज की सामग्री का संक्षिप्त सारांश तैयार करने के लिए अपने फ़ोन को शेक कर सकते हैं।
इशारा मज़ेदार है, सुविधा उपयोगी है, और पूरी चीज़ सरल और स्वाभाविक लगती है।
तकनीकी दृष्टिकोण से, एप्लिकेशन बिल्कुल वैसे ही काम करता है जैसे आप कल्पना करते हैं: जब एक झटके (या बिजली बोल्ट-आइकन प्रेस) का पता चलता है, तो हम वेब पेज की सामग्री लेते हैं, इसे सारांशित करने के लिए एलएलएम में भेजते हैं, और फिर उपयोगकर्ता को परिणाम लौटाते हैं।
लेकिन एलएलएम का परिदृश्य इतना विशाल होने के कारण, बाजार में अपेक्षाकृत सरल एप्लिकेशन लाते समय भी बहुत कुछ विचार करना पड़ता है। इस पोस्ट में, हम मॉडल चयन के प्रति हमारे दृष्टिकोण के अंदर और बाहर पर चर्चा करेंगे। हम भविष्य के लेख के लिए त्वरित विकास और गुणवत्ता परीक्षण छोड़ देंगे।
कौन सा मॉडल?
इन दिनों, कई एलएलएम उपलब्ध हैं, जिनमें लगभग हर हफ्ते नई रिलीज की एक स्थिर धारा आती है .. प्रत्येक रिलीज को बेंचमार्क स्कोर के एक स्लेट के साथ जोड़ा जाता है, जो एक आयाम या किसी अन्य के साथ नए मॉडल की श्रेष्ठता दिखाता है। विकास की गति तेज़ और उग्र रही है और संख्या को और अधिक बढ़ाने के लिए अरबों डॉलर खर्च किए गए हैं।
लेकिन व्यवहार में इन मेट्रिक्स का क्या मतलब है? दिन के अंत में, हम उपयोगकर्ताओं के लिए एक उत्पाद बना रहे हैं। हमारे लिए सबसे महत्वपूर्ण मीट्रिक है, “मॉडल द्वारा तैयार किए गए सारांश कितने उपयोगी हैं?” – कुछ ऐसा जो बेंचमार्क स्कोर द्वारा अच्छी तरह से कैप्चर नहीं किया गया है। अपने अनुप्रयोगों के लिए सर्वोत्तम मॉडल का चयन करने के लिए, हमें अपने स्वयं के परीक्षण चलाने की आवश्यकता है।
हमारे लिए, सर्वोत्तम मॉडल को कई आयामों में उत्कृष्टता प्राप्त करनी होगी:
- सबसे पहले, सारांश गुणवत्ता। आख़िरकार, पूरा मामला यही है।
- दूसरा, गति. मॉडल को अपेक्षाकृत शीघ्रता से सारांश लौटाने की आवश्यकता है। यदि सारांश तैयार करने में उतना ही समय लगता है जितना लेख पढ़ने में लगता है – तो हम हार गए हैं।
- तीसरा, लागत. चूँकि हम शेक टू समराइज़ फीचर के उपयोग के लिए कोई शुल्क नहीं लेते हैं, इसलिए अनुमान की लागत पूरी तरह से हम पर है (आपका स्वागत है)।
- अंत में, खुला स्रोत। मोज़िला में ओपन सोर्स प्रोजेक्ट्स का समर्थन करना एक मुख्य मूल्य है। इस प्रकार, जब भी संभव हो, हम अपने अनुप्रयोगों में ओपन सोर्स मॉडल का उपयोग करना पसंद करते हैं (इस मामले में, हमें ओपन वेट के लिए समझौता करना पड़ा)।
उपरोक्त को ध्यान में रखते हुए, हमने अपने प्रारंभिक मूल्यांकन के लिए निम्नलिखित मॉडलों का चयन किया: मिस्ट्रल निमो, मिस्ट्रल स्मॉल, जांबा 1.5 मिनी, जेमिनी फ्लैश 2.0 फ्लैश और लामा 4 मेवरिक – ये सभी वर्टेक्स एआई पर होस्ट किए गए थे। नोट: यह परियोजना 2025 की शुरुआत में शुरू हुई थी
गुणवत्ता
BLEU और ROUGE जैसे मानक सारांश मूल्यांकन मेट्रिक्स टोकन ओवरलैप पर निर्भर करते हैं और मानव निर्णय के साथ अच्छी तरह से संबंध नहीं रखते हैं। इस प्रकार, हमने अपने मॉडल उम्मीदवारों का मूल्यांकन करने के लिए एलएलएम जज (जीपीटी-4o) का उपयोग करने का निर्णय लिया। हमने प्रत्येक मॉडल से वेबपेजों के एक ही सेट का सारांश तैयार कराया, और फिर एलएलएम न्यायाधीश से निम्नलिखित मैट्रिक्स पर प्रत्येक सारांश का मूल्यांकन करने के लिए कहा:
जुटना: क्या सारांश एक स्टैंडअलोन पाठ के रूप में तार्किक और स्पष्ट रूप से पढ़ा जाता है?
स्थिरता: क्या सारांश में दी गई जानकारी स्रोत के प्रति सटीक और विश्वसनीय है? क्या कोई मतिभ्रम है?
प्रासंगिकता: क्या सारांश दस्तावेज़ की सबसे महत्वपूर्ण सामग्री पर केंद्रित है?
प्रवाह: क्या सारांश व्याकरणिक रूप से सही, धाराप्रवाह और अच्छी तरह से लिखा गया है?
एक एकल, तुलनीय मीट्रिक प्राप्त करने के लिए, हमने फिर इन अंकों का औसत निकाला।
इस विश्लेषण से, हम देखते हैं कि Google का जेमिनी 2.0 फ्लैश, मेटा का लामा 4 मेवरिक, और मिस्ट्रल स्मॉल शीर्ष प्रदर्शन करने वाले हैं – जेमिनी लगातार इस समूह में अग्रणी है। हम देखते हैं कि शीर्ष तीन मॉडल लगभग 2000 टोकन (जो लगभग औसत वेबपेज की लंबाई है) तक के छोटे मार्ग के बराबर हैं, लेकिन जैसे-जैसे मार्ग लंबे होते जाते हैं, प्रदर्शन अलग होता जाता है – विशेष रूप से 5000 से अधिक टोकन वाले।*
*हम ध्यान देते हैं कि, आंशिक रूप से इस प्रदर्शन गिरावट के कारण, हम केवल उन पृष्ठों का सारांश प्रस्तुत करते हैं जो इस 5000 टोकन सीमा से छोटे हैं।

रफ़्तार
गति के लिए, जिन दो मेट्रिक्स पर हमने गौर किया, वे थे पहले टोकन का समय (यानी मॉडल को अपनी प्रतिक्रिया उत्पन्न करने से पहले आपको कितनी देर तक इंतजार करना होगा) और टोकन-प्रति-सेकंड (कुल टोकन उत्पन्न / एन्कोडिंग समय सहित कुल पीढ़ी का समय)।
इन दोनों परीक्षणों में, मिस्ट्रल-स्मॉल और जेमिनी-2.0-फ़्लैश स्पष्ट विजेता हैं। हमारे द्वारा परीक्षण किए गए अन्य मॉडलों की तुलना में दोनों मॉडल तेजी से आउटपुट उत्पन्न करना शुरू करते हैं और बहुत तेज क्लिप पर टोकन उत्पन्न करते हैं।


लागत
वर्टेक्स एआई सर्वर रहित उदाहरणों पर, नवंबर 2025 तक, हमारे शीर्ष 3 मॉडलों के लिए इनपुट टोकन की लागत इस प्रकार है। (सभी वर्टेक्स एआई मूल्य निर्धारण देखें यहाँ):
| नमूना | मूल्य/एम इनपुट टोकन | मूल्य/एम आउटपुट टोकन |
| जेमिनी 2.5 फ़्लैश (2.0 अब उपलब्ध नहीं) | $0.30 | $2.50 |
| Llama4-मावेरिक | $0.35 | $1.15 |
| मिस्ट्रल छोटा | $0.10 | $0.30 |
यह स्पष्ट है कि मिस्ट्रल स्मॉल गुणवत्ता और प्रदर्शन/डॉलर के दृष्टिकोण से बेहतर प्रदर्शन करता है, अन्य दो मॉडलों की तुलना में प्रति इनपुट टोकन (जो कि हमारे टोकन उपयोग का बड़ा हिस्सा है) की कीमत एक तिहाई या उससे भी कम है।
खुला स्त्रोत
हमारी सर्वोच्च प्राथमिकता एक बेहतरीन उपयोगकर्ता अनुभव बनाना है। हम भी मानते हैं ओपन सोर्स सॉफ़्टवेयर स्वस्थ इंटरनेट के निर्माण का एक अभिन्न अंग है। जब हम उच्चतम गुणवत्ता अनुभव प्रदान करते हुए ओपन सोर्स का समर्थन कर सकते हैं, तो हम करेंगे।
इस श्रेणी में Llama4 Maverick और Mistral Small आगे आते हैं। जबकि कोई भी पूरी तरह से खुला स्रोत नहीं है (कोई प्रशिक्षण कोड या डेटा जारी नहीं किया गया है), दोनों मॉडलों में उदार उपयोग नीतियों के साथ खुले वजन हैं। दूसरी ओर, जेमिनी 2.5 फ्लैश एक मालिकाना मॉडल है।
मॉडल चयन
जब हमने उपरोक्त सभी पर विचार किया, तो हमने अपनी सुविधा को सशक्त बनाने के लिए मिस्ट्रल-स्मॉल के साथ जाने का फैसला किया: यह तेज़ है, यह सस्ता है, इसका वजन खुला है, और यह उच्च गुणवत्ता वाले सारांश तैयार करता है। क्या पसंद नहीं है?
रिलीज़ और भविष्य की दिशाएँ
मॉडल का चयन करने के बाद, हमने यह सुनिश्चित करने के लिए प्रॉम्प्ट पर पुनरावृत्ति की कि हम सर्वोत्तम अनुभव प्रदान कर रहे हैं (आगामी ब्लॉग पोस्ट देखें: शेक टू समराइज़: प्रॉम्प्ट इंजीनियरिंग), और हमने सितंबर 2025 में समाधान जारी किया।
यह परियोजना ब्राउज़र में एलएलएम-संचालित सुविधाओं के निर्माण में एक प्रारंभिक प्रयास थी। इस प्रकार, हमने यहां जो मॉडल चयन प्रक्रिया विकसित की है, उससे हमें अपने बाद के एआई एकीकरणों में मॉडल चयन के लिए पाठ्यक्रम तैयार करने में मदद मिली। विशेष रूप से, जल्द ही जारी होने वाली स्मार्ट विंडो के लिए एप्लिकेशन को पावर देने के लिए सिर्फ एक नहीं, बल्कि कई मॉडल चुनने की आवश्यकता होती है – जिससे उपयोगकर्ताओं को अपने अनुभव पर अधिक नियंत्रण मिलता है।
इस पूरी प्रक्रिया के दौरान, हमने सीखा कि “सर्वश्रेष्ठ” मॉडल उच्चतम बेंचमार्क स्कोर वाला नहीं है। यह वह है जो उस संदर्भ में फिट बैठता है जिसमें इसका उपयोग किया जाता है – कार्य, बजट और के साथ संरेखित करना ओपन सोर्स के प्रति मोज़िला की प्रतिबद्धता.
