मुंबई: इंडियन इंस्टीट्यूट ऑफ टेक्नोलॉजी (IIT) बॉम्बे ने केंद्र सरकार का मंच Aikosh पर 16 नए डेटासेट जारी किए हैं, जो कृत्रिम बुद्धिमत्ता (AI) नवाचार को सक्षम करने के लिए डेटासेट का एक भंडार प्रदान करता है। यह एआई विकसित करने में एक प्रमुख कदम है जो आईआईटी बॉम्बे से भारत के भाषाई और सांस्कृतिक परिदृश्य, प्रोफेसर गणेश रामकृष्णन को समझता है। ये डेटासेट एआई और मशीन लर्निंग (एमएल) में नवाचार और अनुसंधान का समर्थन करेंगे, विशेष रूप से भारतीय भाषाओं, स्क्रिप्ट, दस्तावेज़, मीडिया और दृश्य -श्रव्य सामग्री से जुड़े क्षेत्रों में।
यह प्रयास Bharatgen का हिस्सा है, जो IIT बॉम्बे के नेतृत्व में एक बहुभाषी बड़े भाषा मॉडल (LLM) पहल है और विज्ञान और प्रौद्योगिकी विभाग द्वारा वित्त पोषित है। अब तक, Bharatgen ने 16 भारत केंद्रित डेटासेट का योगदान दिया है और Aikosh पर 21 AI मॉडल लॉन्च किए हैं। इस पहल में हैदराबाद में इंटरनेशनल इंस्टीट्यूट ऑफ इंस्टीट्यूट इंस्टीट्यूट और कानपुर, मंडी, मद्रास, हैदराबाद, इंदौर जैसे शीर्ष संस्थान शामिल हैं।
IIT बॉम्बे के डेटासेट भारतीय एआई उपकरण और अनुप्रयोगों को विकसित करने के लिए एक ठोस आधार बनाने के लिए डिज़ाइन किए गए हैं। इनमें संस्कृत ग्रंथों के डिजिटलीकरण में सुधार के लिए 218,000 से अधिक वाक्य, खिलौने और जैविक खेती में अपसाइक्लिंग की सामग्री जैसे व्यावहारिक कौशल पर ऑडियो-विज़ुअल डेटा, आधुनिक गद्य के लिए 53,000 वाक्य के साथ अंग्रेजी-संस्कृत अनुवादों को अंग्रेजी-संस्कृत अनुवादों में शामिल किया गया है, जिसमें संस्कृति के लिए 78 घंटे की समस्या है, जो कि ब्रह्मांड के लिए है, जो कि ब्रह्मांड के लिए है, जिसमें 11 भारतीयों की संस्था है। 14 भारतीय भाषाओं में एआई तर्क, और टेबल डिटेक्शन डेटासेट।
डेटासेट में विज़ुअल प्रश्न आंसरिंग मॉडल (एक छवि से संबंधित प्रश्नों का उत्तर देने में सक्षम एक प्रणाली), अनुवाद सटीकता में सुधार करने और वीडियो में पाठ को पहचानने के लिए डेटासेट, भारतीय ज्ञान प्रणालियों (IKs) का एक व्यापक अवलोकन, सात भारतीय भाषाओं में क्रॉस-लिंगुअल वीडियो और पाठ पुनर्प्राप्ति (प्रासंगिक जानकारी को प्राप्त करने की अनुमति देता है, जब दस्तावेज़ एक अलग भाषा में लिखा जाता है) को शामिल करता है।
ये डेटासेट और मॉडल IIT बॉम्बे और Bharatgen द्वारा भारत के लिए संप्रभु AI मॉडल बनाने के लिए एक व्यापक प्रयास का हिस्सा हैं, जो भारत के एआई मिशन के साथ गठबंधन किया गया है, एक केंद्र सरकार की पहल है जिसका उद्देश्य एक पारिस्थितिकी तंत्र का निर्माण करना है जो एआई नवाचार को डेटा गुणवत्ता को बढ़ाकर और कंप्यूटर एक्सेस को सुविधाजनक बनाने की अनुमति देता है। टीम केवल मौजूदा मॉडल को ठीक करने के लिए ठीक नहीं है, बल्कि भारतीय डेटा का उपयोग करके नए लोगों को खरोंच से प्रशिक्षित करती है। वे बातचीत और शिक्षा में भारतीय उपयोग के लिए इन मॉडलों का परीक्षण करने के लिए बेंचमार्क भी बना रहे हैं।
इस पहल का एक प्रमुख आकर्षण ‘परम 1’ का लॉन्च है, जो 2.9 बिलियन मापदंडों के साथ एक द्विभाषी मूलभूत भाषा मॉडल है। यह अंग्रेजी और हिंदी दोनों का समर्थन करता है और इसे 36% इंडिक भाषा डेटा पर प्रशिक्षित किया गया है – मेटा के लामा जैसे अंतरराष्ट्रीय मॉडल की तुलना में महत्वपूर्ण रूप से, जिसमें 0.01% से कम था।
“प्री-ट्रेनिंग (एक बड़े डेटासेट पर मशीन लर्निंग मॉडल को प्रशिक्षित करने का प्रारंभिक चरण) एक बहुत बड़ा उपक्रम है और अक्सर कई लोगों के लिए एक बाधा है। इसीलिए हमने इस चुनौती को लिया है,” प्रोफेसर रामकृष्णन, भारतीय रामकृष्णन। डेवलपर्स अब संकेत चैटबॉट्स, कोपिलॉट्स (अनुसंधान के लिए आभासी सहायक), और ज्ञान प्रणालियों के निर्माण के लिए ठीक-ठीक 1 परम-ट्यून कर सकते हैं। प्रोफेसर रामकृष्णन ने कहा, “हम आशा करते हैं कि इस तरह के एलएलएम मॉडल चौकियों की रिहाई जैसे एक संप्रभु जेनेरिक एआई पारिस्थितिकी तंत्र और मील के पत्थर बनाने की दिशा में हमारे प्रयास, भारत-विशिष्ट समाधानों के लिए एक नींव के रूप में कार्य करते हैं।”
परम 1 के साथ -साथ, भरतगेन ने 19 भारतीय भाषाओं में 20 से अधिक भाषण मॉडल लॉन्च किए हैं। इनमें स्पीकर एडेप्टिव टेक्स्ट-टू-स्पीच (टीटीएस) सिस्टम शामिल हैं जो हिंदी, तमिल, तेलुगु, मराठी और बंगाली जैसी भाषाओं में स्पीकर की आवाज की नकल कर सकते हैं। उन्नत स्पीकर-वातानुकूलित टीटीएस मॉडल और स्वचालित भाषण मान्यता प्रणालियों को भी आवाज-आधारित अनुप्रयोगों को अधिक प्राकृतिक और समावेशी बनाने के लिए विकसित किया गया है।
प्रोफेसर रामकृष्णन ने कहा, “हमारा लक्ष्य केवल एआई मॉडल का निर्माण करना नहीं है, बल्कि उन संसाधनों को प्रदान करना है जो स्टार्टअप और सिस्टम इंटीग्रेटर्स का लाभ उठा सकते हैं।”