भारत में हिंदी माध्यम से भाषा प्रौद्योगिकी के अध्ययन-अध्यापन के लिए एक आधार पुस्तक की आवश्यकता पिछले 35-30 वर्षों से महसूस की जा रही थी। इसी आवश्यकता की पूर्ती करने का प्रयास इस पुस्तक के माध्यम से किया गया है। आप सभी से पुस्तक का एक बार अवलोकन करने और अपनी प्रतिक्रिया देने का अनुरोध है।
पुरोवाक्
भाषा प्रौद्योगिकी (Language Technology) एक ऐसा विशिष्ट क्षेत्र है, जो
कंप्यूटर और मानव भाषा के मध्य संवाद को सहज बनाने के लिए भाषा अध्ययन और उपकरण
विकास संबंधी कार्य करता है। इस क्षेत्र में विद्वान मानव भाषा को गढ़ने वाली
इकाइयों- ध्वनि, शब्द, वाक्य और
अर्थ आदि का अध्ययन करते हैं। इस विश्लेषण का कंप्यूटर पर अनुप्रयोग करते हुए
अनुवाद, भाषा शिक्षण, सूचना खोज, पाठ सारांशीकरण, स्वचालित
प्रश्नोत्तर आदि के लिए उपकरणों और आवश्यक प्रौद्योगिकी का विकास किया जाता है। ये
सभी कार्य ‘भाषा प्रौद्योगिकी’ को सूचना प्रौद्योगिकी के विशेष क्षेत्र के रूप में स्थापित करते हैं। अब
इस क्षेत्र में ‘कृत्रिम मेधा’ (AI) की भूमिका अत्यंत महत्वपूर्ण हो चुकी है।
किसी भी देश के समग्र विकास के लिए ज्ञान-विज्ञान और
तकनीकी संबंधी सामग्री का उसी देश की भाषा में होना आवश्यक है। स्वतंत्रता प्राप्ति के पश्चात भारत में अंग्रेजी की स्थिति भारतीय भाषाओं
की तुलना में एक प्रभुत्वशाली भाषा के रूप में रही। भारत में अन्य भारतीय भाषाओं
की तुलना में अंग्रेजी की ऐसी आभा बनी रही कि अंग्रेजी बोलने वालों ने छद्म गौरव
का बोध किया। साथ ही शिक्षा, विज्ञान और तकनीकी
विकास की भाषा अंग्रेजी ही बनी रही। इन क्षेत्रों में अंग्रेजी की तुलना में
भारतीय भाषाओं में उतना काम नहीं हो सका, जितना अपेक्षित था।
समय के साथ मातृभाषा की महत्ता की समझ, भारत
की भाषायी समृद्धि का बोध और भारत सरकार की राष्ट्रीय शिक्षा नीति 2020 जैसी
राष्ट्रवादी नीति के कारण अब भारतीय भाषाओं को भी फलने-फूलने का प्रचुर अवसर मिला
है। इस अवसर को संपूर्णता तभी प्राप्त हो सकती है जब उच्च शिक्षा, तकनीकी और ज्ञान विज्ञान के सभी क्षेत्रों में हिंदी और भारतीय भाषाओं में
भी प्रचुर मात्रा में सामग्री उपलब्ध कराई जाए।
प्रो. धनजी प्रसाद भाषा
प्रौद्योगिकी के उत्कृष्ट अध्येता और विद्वान हैं। भाषा प्रौद्योगिकी को आधार
बनाकर किया गया उनका यह कार्य इस क्षेत्र के अध्ययनकर्ताओं और शोधार्थियों के लिए
अत्यंत महत्वपूर्ण मार्गदर्शक सिद्ध होगा। भाषा प्रौद्योगिकी के परिचय से लेकर
प्राकृतिक भाषा संसाधन, इसके उपकरण और
अनुप्रयोग क्षेत्र, कंप्यूटेशनल पक्ष,
भाषायी पक्ष तथा कृत्रिम मेधा और भाषा प्रौद्योगिकी तक किया गया यह अनुशीलन अत्यंत
विशिष्ट और उत्कृष्ट बन पड़ा है।
यह ग्रंथ भाषा के अध्ययन की दिशा में आने वाली पीढ़ी के लिए न केवल उपयोगी
होगा, बल्कि उनके अध्ययन में भी सहायक बनेगा। प्रो. प्रसाद
केंद्रीय हिंदी संस्थान में आचार्य के रूप में अपनी सेवाएँ देते हुए शोध के
क्षेत्र में भी अपना उत्कृष्ट योगदान कर रहे हैं। मैं प्रो. प्रसाद के उन्नत अकादमिक
जीवन के लिए हार्दिक शुभकामना देता हूँ। मुझे विश्वास है कि यह ग्रंथ भाषा
प्रौद्योगिकी के क्षेत्र में ‘मील का पत्थर’ सिद्ध होगा।
14 अप्रैल 2026, डॉ. बाबासाहब आंबेडर जयंती
प्रो. सुरेंद्र दुबे
उपाध्यक्ष, केंद्रीय हिंदी शिक्षण मंडल
शिक्षा मंत्रालय, भारत सरकार
आमुख
20वीं शताब्दी में कंप्यूटर और इंटरनेट के योग से विकसित हुई तकनीक एक
व्यापक डिजिटल क्रांति के रूप में मानव सभ्यता के सामने उपस्थित हुई है। इस क्रम
में डेटा और प्रौद्योगिकी के योग से अनेक क्षेत्रों का विकास हुआ है, जिन्हें हम सामूहिक रूप से ‘सूचना
प्रौद्योगिकी’ के नाम से जानते हैं। सूचना और संसाधन के
स्रोत एवं अनुप्रयोग की विविधता के क्रम में सूचना प्रौद्योगिकी के अनेक क्षेत्र
विकसित हो चुके हैं, जिनमें से भाषा से संबंधित क्षेत्र
‘भाषा प्रौद्योगिकी’ है।
हिंदी में भाषा प्रौद्योगिकी का क्षेत्र आज के डिजिटल युग में अत्यंत
महत्वपूर्ण और तेजी से विकसित होता हुआ क्षेत्र है। सूचना प्रौद्योगिकी के विस्तार
के साथ-साथ भाषाई संसाधनों और उपकरणों की मांग भी बढ़ी है, जिसके परिणामस्वरूप हिंदी भाषा के लिए विभिन्न तकनीकी
साधनों का विकास किया जा रहा है। वर्तमान समय में हिंदी इंटरनेट, मोबाइल एप्लिकेशन, सोशल मीडिया, ई-गवर्नेंस और शिक्षा के क्षेत्र में व्यापक रूप से प्रयुक्त हो रही है,
जिससे भाषा प्रौद्योगिकी की आवश्यकता और भी अधिक स्पष्ट हो जाती है।
विश्व में 1950 के दशक से ही भाषा प्रौद्योगिकी के क्षेत्र में विविध
कार्य आरंभ हो चुके थे, जिसमें उपकरण एवं
प्रणाली विकास के साथ-साथ प्रचुर मात्रा में लिखित साहित्य का सृजन भी किया गया।
भारत में कंप्यूटर क्रांति 1990 के दशक में हुई, जिसके
पश्चात भारत में भी भाषा प्रौद्योगिकी के क्षेत्र में विभिन्न संस्थाओं द्वारा
अनेक कार्य किए गए तथा उनसे संबंधित सामग्री का लेखन भी हुआ। यह लेखन मुख्य रूप से
अंग्रेजी में ही रहा। कुछ विद्वानों द्वारा हिंदी में भी थोड़े बहुत प्रयास किए गए,
किंतु ये प्रयास अपर्याप्त जान पड़ते हैं। आज भी हमारे पास हिंदी में
भाषा प्रौद्योगिकी के सामान्य अध्येता के लिए परिचयात्मक, प्रगत
या वर्तमान स्थिति को समुचित रूप से प्रस्तुत करने वाली अद्यतन पुस्तकों का अभाव
दिखाई पड़ता है। हिंदी को आधुनिक विश्व भाषा के रूप में स्थापित करने के लिए यह
आवश्यक है कि आधुनिक सूचना प्रौद्योगिकी के सभी क्षेत्रों से संबंधित अद्यतन
पुस्तकें हिंदी माध्यम से भी उपलब्ध हों। भाषा प्रौद्योगिकी के लिए प्रो. धनजी
प्रसाद द्वारा किया गया यह कार्य एक सराहनीय प्रयास है, जो
इस दिशा में एक के रूप में पूर्ति करता
है।
केंद्रीय हिंदी संस्थान, आगरा को हाल ही में
भारत सरकार द्वारा सम-विश्वविद्यालय विशिष्ट श्रेणी का दर्जा दिया गया है।
सम-विश्वविद्यालय बनने के उपरांत संस्थान इस बात को प्राथमिकता देगा कि भाषा
प्रौद्योगिकी की शिक्षा हिंदी माध्यम में उपलब्ध की जाए । इस दृष्टि को ध्यान में
रखते हुए संस्थान ने हिंदी भाषा शिक्षण को ध्यान में रखकर जो बारह विभाग
प्रस्तावित किए है उनमें से एक विभाग भाषा प्रौद्योगिकी का भी है। हिंदी माध्यम से
भाषा प्रौद्योगिकी की उपाधि देनेवाला संस्थान भारत वर्ष में एक अद्वितीय संस्थान
होगा। उस दृष्टि से भी इस पुस्तक की प्रासंगिकता और अधिक सराहनीय है।
आशा है कि हमारे परियोजना विभाग के विभागाध्यक्ष तथा मदन मोहन मालवीय
शिक्षक प्रशिक्षण केंद्र के निदेशक आचार्य धनजी प्रसाद द्वारा लिखित यह पुस्तक मील
का पत्थर सिद्ध होगी ।
धन्यवाद!
सुनील बाबुराव कुळकर्णी
निदेशक आचार्य
केंद्रीय हिंदी संस्थान, आगरा; तथा
राष्ट्रीय सिंधी विकास परिषद, नई
दिल्ली, उच्चतर शिक्षा विभाग
शिक्षा मंत्रालय, भारत सरकार, नई दिल्ली
भूमिका
‘जिज्ञासा, विचार और स्मृति' मानव मन की वे युक्तियाँ हैं, जिनके माध्यम से
मनुष्य ने अपने परिवेश में उपलब्ध सभी प्रकार की चीजों का विश्लेषण करने, समझने और इस क्रम में सृजित ज्ञान को दूसरों तक पहुँचाने का निरंतर कार्य
किया है। यह परंपरा मानव सभ्यता के उत्तरोत्तर विकास का माध्यम बनी है। मनुष्य ने
परिवेश में उपलब्ध चीजों का ज्ञान ही प्राप्त नहीं किया है, बल्कि
उस ज्ञान के आधार पर अनेक ऐसी चीजों का भी अविष्कार किया है, जिन्होंने मानव जीवन को सरल और गतिक बनाया है और इस प्रकार से मानव सभ्यता
का विकास हुआ है। इस विकास क्रम में निरंतर हुए अविष्कारों और खोजों ने न केवल
हमारे जीवन को एक दिशा दी है बल्कि अन्य प्रकार की नवीन खोजों तथा अविष्कारों का
मार्ग भी प्रशस्त किया है। इस प्रकार हुए अनेक अविष्कारों में एक महत्वपूर्ण
आविष्कार 'कंप्यूटर' भी है, जिसकी आज हमारे जीवन के लगभग सभी क्षेत्रों में उपयोगिता निर्विवाद है।
कंप्यूटर और इंटरनेट का प्रभाव हमारे क्रियाकलापों पर
इतना अधिक हो चुका है कि आज वास्तविक संसार के समानांतर एक नया आभासी डिजिटल संसार
भी निर्मित हो चुका है। इस संसार में सब प्रकार की सूचनाएँ, ज्ञान-विज्ञान,
विचार और अभिव्यक्ति आदि 'डेटा' (Data)
मात्र हैं। डिजिटल गणना की दृष्टि से कंप्यूटर की क्षमता असीम है।
वह अरबों-खरबों की संख्याओं की एक सेकेंड से भी कम समय में गणना कर सकता है,
छँटाई कर सकता है या उन पर कोई भी गणितीय संक्रिया कर सकता है,
किंतु उसकी सबसे बड़ी सीमा यह है कि वह उन्हें समझ नहीं सकता। इस
कारण आज मशीन के अंदर डेटा की समझ और उसके आधार पर निर्णय लेने की क्षमता का विकास
करने संबंधी कार्य व्यापक स्तर पर किए जा रहे हैं, जिन्हें
हम तकनीकी रूप से 'कृत्रिम बुद्धि' (AI) के नाम से जानते हैं। इसके अंतर्गत मशीनों को मनुष्य की तरह व्यवहार करने
या मनुष्य के साथ संवाद स्थापित करने योग्य बनाने का प्रयास किया जा रहा है। इस
क्षेत्र में पर्याप्त प्रगति हुई है, किंतु हम जानते हैं कि
मानव मन के अंदर समझ एवं विचार की प्रक्रिया संपन्न होने तथा परस्पर व्यवहार करने
का आधारभूत माध्यम 'भाषा' है। अतः मानव
मशीन संवाद या मशीन के अंतर्गत समझ विकसित करना तब तक संभव नहीं है, जब तक उसके अंदर भी मानव भाषाओं का ज्ञान स्थापित न कर दिया जाए।
कंप्यूटर या मशीन के अंतर्गत मानव भाषाओं के ज्ञान को स्थापित करने की
प्रक्रिया 'प्राकृतिक भाषा संसाधन' (NLP) कहलाती है। इसके लिए ‘मानव भाषाओं का तार्किक रूप
में संरचित ज्ञान’ तथा इसके अनुप्रयोग हेतु ‘प्रोग्रामिंग’ और ‘डेटाबेस
(एवं कार्पस) निर्माण एवं प्रबंधन’ संबंधी ज्ञान की आवश्यकता
होती है। इन सभी का अध्ययन-अध्यापन तीन अंतरानुशासनिक ज्ञानानुशासनों के अंतर्गत
किया जाता है- भाषा प्रौद्योगिकी (Language
Technology- LT), कंप्यूटेशनल भाषाविज्ञान (Computational
Linguistics- CL) तथा भाषा अभियांत्रिकी (Language
Engineering- LE)। प्रस्तुत पुस्तक इनमें से 'भाषा
प्रौद्योगिकी' (LT) का परिचय कराती है। पुस्तक
का गठन इस प्रकार है-
पहले अध्याय में भाषा प्रौद्योगिकी का परिचय दिया गया
है। इसमें सबसे पहले प्रौद्योगिकी की अवधारणा स्पष्ट करते हुए विज्ञान और
प्रौद्योगिकी के संबंध की चर्चा की गई है। इसके पश्चात इस बात पर भी विचार किया
गया है कि 'क्या भाषा (और लेखन) स्वयं एक प्रौद्योगिकी है?'। इस क्रम में प्रौद्योगिकी और सूचना प्रौद्योगिकी पर भी प्रकाश डाला गया
है। आगे भाषा प्रौद्योगिकी के स्वरूप और उद्देश्य को स्पष्ट किया गया है तथा इसके
समानांतर विषय कंप्यूटेशनल भाषाविज्ञान से इसके संबंध और अंतर की विस्तृत चर्चा की
गई है। अंत में भाषा प्रौद्योगिकी और भाषा
अभियांत्रिकी पर भी संक्षेप में प्रकाश डाला गया है और भारत में भाषा प्रौद्योगिकी के विकास का अत्यंत
संक्षिप्त परिचय दिया गया है, क्योंकि भाषा प्रौद्योगिकी के 10 से अधिक अनुप्रयोग क्षेत्र हैं, उन सभी में भारत की अनेक संस्थाओं में कार्य हो रहा है। अतः सभी को समेट
पाना अपने-आप में बड़ा कार्य है।
दूसरे अध्याय में भाषा प्रौद्योगिकी के परिप्रेक्ष्य
में प्राकृतिक भाषा संसाधन के विविध पक्षों की सविस्तार चर्चा की गई है, जिसमें प्राकृतिक भाषा संसाधन (NLP) का परिचय देते
हुए प्राकृतिक भाषा बोधन (NLU) के साथ उसके संबंध को स्पष्ट
किया गया है। इसके पश्चात प्राकृतिक भाषा संसाधन के अंतर्गत होने वाली दो प्रमुख
प्रक्रियाओं- विश्लेषण (Analysis) और प्रजनन (Generation)
को बताते हुए प्राकृतिक भाषा संसाधन के प्रकार और इसके विकास के
चरणों को स्थान दिया गया है। आगे भाषा प्रौद्योगिकी में वाक् संसाधन (Speech
Processing) और पाठ संसाधन (Text Processing) के
अंतर्गत आने वाली प्रक्रियाओं को समझाते हुए भाषा प्रौद्योगिकी के लिए आवश्यक
प्राकृतिक भाषा संसाधन के अभिगम (Approach) को बताया गया है।
तीसरे अध्याय में भाषा प्रौद्योगिकी के अंतर्गत विकसित किए जाने वाले
भाषायी उपकरणों तथा इसके अनुप्रयोग क्षेत्रों की सविस्तार चर्चा की गई है। इसमें
भाषायी उपकरणों को तीन भागों में बाँटा गया है- पूर्व भाषा संसाधन उपकरण, घटक उपकरण तथा अनुप्रयोगात्मक उपकरण। रूप विश्लेषक (Morph
Analyzer), शब्द भेद टैगर (POS Tagger) तथा
पद-विच्छेदक (Parser) जैसे उपकरणों को घटक उपकरण के रूप में
स्थान दिया गया है, तो वर्तनी जाँचक (Spell Checker),
लिप्यंतरण प्रणाली (Transliteration System) और
व्याकरण जाँचक (Grammar Checker) जैसे उपकरणों को
अनुप्रयोगात्मक उपकरण के रूप में प्रस्तुत किया गया है। इसके पश्चात भाषा
प्रौद्योगिकी के 12 अनुप्रयोग क्षेत्रों- मशीनी
अनुवाद (MT), प्रकाशिक अक्षर अभिज्ञान (OCR),
पाठ से वाक् (TTS) और वाक् से पाठ (STT),
सूचना प्रत्यानयन (IR), पाठ सारांशीकरण (Text
Summarization) तथा प्रश्न उत्तर प्रणालियाँ (QAS) आदि को बताया गया है। अंत में भाषा प्रौद्योगिकी के अंतर्गत आवश्यक
प्रणाली मूल्यांकन (System Evaluation) का भी समावेश किया
गया है, जिसमें मूल्यांकन मानदंडों और मूल्यांकन विधियों की
चर्चा की गई है।
भाषा प्रौद्योगिकी एक अंतरानुशासनिक विषय है, जिसमें एक ओर भाषाविज्ञान है, जो मानव भाषाओं का
सैद्धांतिक ज्ञान प्रदान करता है तो दूसरी ओर कंप्यूटरविज्ञान है, जो आवश्यक अनुप्रयोगात्मक ज्ञान से संबंधित है। अनुप्रयोग की आवश्यकता के
अनुसार ही सैद्धांतिक ज्ञान सृजित किया जाता है। इसलिए चौथे अध्याय में भाषा
प्रौद्योगिकी के अनुप्रयोगात्मक (कंप्यूटेशनल) पक्ष को स्थान दिया गया है, जिसमें- प्रोग्राम क्या है ?, एल्गोरिद्म (Algorithm), फ्लोचार्ट
(Flowchart) स्यूडोकोड (Pseudocode), डेटाबेस प्रबंधन प्रणाली (DBMS) तथा प्रोग्रामिंग
भाषा की चर्चा की गई है। प्रोग्रामिंग भाषा के अंतर्गत सी शार्प (C#) और पाइथन (Python) के बारे में बताया गया है।
पाँचवें अध्याय में भाषा प्रौद्योगिकी के भाषायी पक्ष को स्थान दिया गया
है। इसके अंतर्गत बताया गया है कि भाषा प्रौद्योगिकी के लिए किस प्रकार के भाषायी
ज्ञान की आवश्यकता पड़ती है तथा वह भाषाविज्ञान के किन पक्षों से प्राप्त होता है।
इस क्रम में ‘भाषा प्रौद्योगिकी और व्याकरण फ्रेमव’र्क’, ‘कोश और संगणकीय कोश’ तथा ‘भाषा प्रौद्योगिकी के संदर्भ में अर्थ और आर्थी
निरूपण’ की सविस्तार चर्चा की गई है।
भाषा प्रौद्योगिकी का मूल उद्देश्य प्राकृतिक
भाषा संसाधन है, जिसके माध्यम से विभिन्न प्रकार के भाषायी
उपकरणों का विकास किया जाता है और उनका प्रयोग विविध
अनुप्रयोग क्षेत्रों में किया जाता है। यह कार्य अंततः कृत्रिम बुद्धि तक जाकर
अपने उद्देश्य की संपूर्णता को प्राप्त करता है। अतः भाषा प्रौद्योगिकी के
विद्यार्थी या अध्येता को 'कृत्रिम बुद्धि' (AI) का ज्ञान आवश्यक है। इसे ही ध्यान में रखते हुए छठवें अध्याय में भाषा
प्रौद्योगिकी और कृत्रिम बुद्धि की चर्चा की गई है। इसमें सर्वप्रथम कृत्रिम
बुद्धि का परिचय देते हुए इसके क्षेत्रों की चर्चा की गई है। इसके पश्चात कृत्रिम
बुद्धि के संदर्भ में मशीनी अधिगम (Machine Learning- ML), गहन
अधिगम (Deep Learning- DL) तथा न्यूरल नेटवर्क (Neural
Network- NN) को सविस्तार समझाया गया है। इस अध्याय के अंत में यह
भी स्पष्ट किया गया है कि किस प्रकार के न्यूरल नेटवर्क प्राकृतिक भाषा संसाधन
संबंधी कार्यों में अधिक उपयोगी होते हैं और चैटजीपीटी जैसे उन्नत सॉफ्टवेयर किस
प्रकार के बृहत भाषा मॉडलों (LLMs) का प्रयोग
करते हैं।
इस प्रकार से यह पुस्तक भाषा प्रौद्योगिकी को समझने तथा इस क्षेत्र में
आगे कार्य के लिए आधारभूत ज्ञान प्रदान करती है। भाषा प्रौद्योगिकी अपने-आप में एक
अत्यंत विस्तृत क्षेत्र है। इसके सभी पक्षों को सविस्तार एक पुस्तक में समेट पाना
संभव नहीं है, फिर भी यह पुस्तक भाषा प्रौद्योगिकी के
सभी प्रमुख पक्षों का आधारभूत परिचय प्रदान करती है, तथा
अध्येताओं को आगे गहन अध्ययन के लिए प्रेरित करती है। मुझे पूर्ण विश्वास है कि इस
पुस्तक के माध्यम से विद्यार्थी भाषा प्रौद्योगिकी का परिचय प्राप्त कर इस क्षेत्र
में गहन अध्ययन और शोध आदि कार्यों के लिए उन्मुख हो सकेंगे।
इस पुस्तक के लेखन में प्रत्यक्ष या परोक्ष रूप से जिन विद्वज्जन और स्वजन
का सहयोग मिला है, मैं उन सभी के प्रति
कृतज्ञता ज्ञापित करता हूँ। इस क्रम में मैं केंद्रीय हिंदी शिक्षण मंडल के
उपाध्यक्ष प्रो. सुरेंद्र दुबे एवं केंद्रीय
हिंदी संस्थान, आगरा के निदेशक प्रो. सुनील बाबुराव
कुळकर्णी के प्रति हृदय से कृतज्ञता ज्ञापित करता हूँ, जिन्होंने
नियमित रूप से मुझे प्रोत्साहित किया है। मैं केंद्रीय हिंदी संस्थान और म.गां.अं.हिं.वि.,
वर्धा के सभी अग्रज-अनुज शिक्षकों के प्रति आभार व्यक्त करता हूँ,
जिनसे मुझे सदैव संबल एवं सहयोग मिला है। इस पुस्तक का लेखन म.गां.अं.हिं.वि.,
वर्धा में ही हुआ था, जिसे समय के साथ अद्यतन
करते हुए वर्तमान में प्रकाशित किया जा रहा है। अंत में गुरुवर प्रो. अनिल कुमार
पाण्डेय, पत्नी (रागिनी) एवं माता-पिता समेत अन्य स्नेहीजन
के प्रति भी कृतज्ञ हूँ, जिनके प्रेम और स्नेह से इस पुस्तक
को पूर्ण करने में सफल हो सका।
प्रो. धनजी प्रसाद,
केंद्रीय हिंदी संस्थान, आगरा
विषय सूची
1.
भाषा प्रौद्योगिकी : परिचय 15
(Language Technology: An Introduction)
1.1 प्रौद्योगिकी (Technology) : अवधारणा
और स्वरूप 16
1.2 विज्ञान और प्रौद्योगिकी 18
1.3 क्या ‘भाषा’ स्वयं एक ‘प्रौद्योगिकी’ है?
20
1.4 प्रौद्योगिकी और सूचना प्रौद्योगिकी 22
1.5 भाषा प्रौद्योगिकी : स्वरूप और उद्देश्य 26
1.5.1 भाषा प्रौद्योगिकी : स्वरूप
1.5.2 भाषा प्रौद्योगिकी : उद्देश्य
1.5.3 भाषा प्रौद्योगिकी और मानव
भाषा प्रौद्योगिकी
1.6 भाषा प्रौद्योगिकी और कंप्यूटेशनल भाषाविज्ञान 36
1.6.1 भाषा प्रौद्योगिकी और
कंप्यूटेशनल भाषाविज्ञान की पृष्ठभूमि
1.6.2 भाषा प्रौद्योगिकी और
कंप्यूटेशनल भाषाविज्ञान का उद्देश्य
1.6.3 भाषा प्रौद्योगिकी और
कंप्यूटेशनल भाषाविज्ञान के अध्ययन क्षेत्र
1.6.4 भाषा प्रौद्योगिकी और
कंप्यूटेशनल भाषाविज्ञान के अभिगम
1.7 भाषा प्रौद्योगिकी और भाषा अभियांत्रिकी 45
1.8 भारत में भाषा प्रौद्योगिकी का विकास 47
2.
भाषा प्रौद्योगिकी और प्राकृतिक भाषा
संसाधन 55
(Language Technology and NLP)
2.1 प्राकृतिक भाषा संसाधन : परिचय 55
2.2 प्राकृतिक भाषा संसाधन और प्राकृतिक भाषा बोधन 58
2.3 प्राकृतिक भाषा संसाधन : विश्लेषण और प्रजनन 62
2.4 प्राकृतिक भाषा संसाधन के प्रकार 64
2.5 प्राकृतिक भाषा संसाधन : विकास के चरण 67
2.5.1 नियम आधारित प्राकृतिक भाषा
संसाधन
2.5.2 सांख्यिकीय प्राकृतिक भाषा
संसाधन
2.5.3 गहन अधिगम आधारित प्राकृतिक
भाषा संसाधन
2.6 वाक् संसाधन और पाठ संसाधन 71
2.6.1 वाक् संसाधन
2.6.2 पाठ संसाधन
2.7 भाषा प्रौद्योगिकी में प्राकृतिक भाषा संसाधन के अभिगम 79
3.
भाषा प्रौद्योगिकी : उपकरण और
अनुप्रयोग क्षेत्र 84
(Language Technology: Tools and Applied Areas)
3.1 भाषा प्रौद्योगिकी में उपकरण 85
3.1.1 पूर्व-भाषा संसाधन उपकरण (फॉन्ट, फॉन्ट-परिवर्तक, शब्द-संसाधक)
3.1.2 घटक उपकरण (टोकनाइजर, रूपविश्लेषक, रूपसर्जक, प्रातिपदिक प्राप्तकर्ता (स्टेमर), टैगर, चंकर, पार्सर)
3.1.3 अनुप्रयोगात्मक उपकरण (वर्तनी
जाँचक, व्याकरण जाँचक, लिप्यंतरक)
3.1.4 अन्य सहायक उपकरण (शब्द आवृत्ति गणक,
स्टॉप शब्द प्राप्तकर्ता/पहचानक, दिनांक,
समय और मुद्रा अभिज्ञानक, विराम चिह्न, विशिष्ट
वर्ण, लोगोग्राम अभिज्ञानक, कॉनकॉर्डेंस प्राप्तकर्ता)
3.2 भाषा प्रौद्योगिकी के अनुप्रयोग क्षेत्र 122
3.2.1 मशीनी अनुवाद (MT)
3.2.2 प्रकाशिक अक्षर अभिज्ञान (OCR)
3.2.3 पाठ से वाक् (TTS) और वाक् से पाठ (STT)
3.2.4 सूचना प्रत्यानयन (IR)
3.2.5 पाठ सारांशीकरण (Text
Summarization)
3.2.6 कंप्यूटेशनल कोश (Computational
Lexicon)
3.2.7 कंप्यूटर साधित भाषा अधिगम/शिक्षण (CALL/CALT)
3.2.8 प्रश्न उत्तर प्रणालियाँ (QAS)
3.2.9 भाषा पठन एवं लेखन सहयोग (LRWA)
3.2.10 वार्ता प्रणालियाँ (Dialogue Systems)
3.2.11 वाक् अभिज्ञान (Voice
Recognition)
3.2.12 कृत्रिम बुद्धि (Artificial Intelligence)
3.3 भाषा प्रौद्योगिकी : प्रणाली मूल्यांकन 151
3.3.1 मूल्यांकन
मानदंड
3.3.2 मूल्यांकन विधियाँ
4.
भाषा प्रौद्योगिकी का कंप्यूटेशनल पक्ष 157
(Computational Aspect of Language Technology)
4.1 प्रोग्राम (Program) 157
4.1.1 प्रोग्राम :
अवधारणा
4.1.2 प्रोग्राम
निर्माण प्रक्रिया
4.2 एल्गोरिद्म, फ्लोचार्ट और
स्यूडोकोड 160
4.2.1 एल्गोरिद्म (Algorithm)
4.2.2 फ्लोचार्ट (Flowchart)
4.2.3 स्यूडोकोड
(Psuedocode)
4.3 डेटाबेस प्रबंधन प्रणाली (DBMS) 173
4.3.1 डेटाबेस और डेटाबेस प्रबंधन
4.3.2 डेटाबेस प्रबंधन प्रणाली
4.4 प्रोग्रामिंग भाषा 179
4.4.1 प्रोग्रामिंग भाषा : परिचय
4.4.2
प्रोग्रामिंग भाषा के मूलभूत तत्व
4.4.3 सी. शार्प (C#)
4.4.4 पाइथन (Python)
4.5 भाषा संबंधी प्रोग्रामिंग 205
5.
भाषा प्रौद्योगिकी का भाषायी पक्ष 207
(Linguistic Aspect of Language Technology)
5.1 भाषा प्रौद्यिगिकी के संदर्भ में
भाषायी ज्ञान 207
5.2 भाषा प्रौद्योगिकी और व्याकरण फ्रेमवर्क 210
5.2.1 व्याकरण फ्रेमवर्क क्या है?
5.2.2 सामान्य व्याकरण और इसकी
सीमाएँ
5.2.3 प्रमुख व्याकरण फ्रेमवर्क
5.2.4 व्याकरण फ्रेमवर्कों की विषयवस्तु
5.2.5 व्याकरण
फ्रेमवर्कों की सीमा
5.3 कोश और संगणकीय कोश 234
5.4 भाषा प्रौद्योगिकी के संदर्भ में अर्थ और आर्थी निरूपण 239
5.4.1 शब्द-संजाल (Wordnet)
5.4.2
आर्थी-संजाल (Semantic
Net)
5.4.3
साँचा-संजाल (FrameNet)
5.4.4
प्रापबैंक (Propbank)
5.5 सांख्यिकीय अभिगम का
भाषायी पक्ष 248
6.
भाषा प्रौद्योगिकी और कृत्रिम बुद्धि 255
(Language Technology and AI)
6.1 कृत्रिम बुद्धि : परिचय 255
6.1.1 बुद्धि (Intelligence) क्या है?
6.1.2 बुद्धि के प्रकार्य (Functions of
Intelligence)
6.1.3 बुद्धि और कृत्रिम बुद्धि
6.1.4 कृत्रिम बुद्धि के प्रकार
6.1.5 कृत्रिम बुद्धि : संक्षिप्त इतिहास
6.2 कृत्रिम बुद्धि के क्षेत्र 267
6.3 कृत्रिम बुद्धि और मशीनी अधिगम 269
6.3.1 मशीनी अधिगम (Machine Learning) क्या है?
6.3.2 मशीनी अधिगम और कृत्रिम बुद्धि (ML and AI)
6.3.3 मशीनी अधिगम और गहन अधिगम (ML & DL)
6.3.4 गहन अधिगम में इनकोडिंग और डिकोडिंग (Encoding and
Decoding in DL)
6.4 न्यूरल नेटवर्क (Neural Network- NN) मॉडल
277
6.5 मशीनी अधिगम में प्रकार्य (Functions in ML) 289
6.6 मशीनी अधिगम के चरण 294
6.7 मशीनी अधिगम संबंधी सांख्यिकीय प्रक्रियाएँ/नियम 297
6.8 मशीनी अधिगम एल्गोरिद्म और भाषा प्रौद्योगिकी 306
6.9 बृहत भाषा मॉडल (LLMs) 309
संदर्भ-सूची 313


No comments:
Post a Comment