Total Pageviews

Friday, May 15, 2026

भाषा प्रौद्योगिकी : प्रो. धनजी प्रसाद (2026)

    भारत में हिंदी माध्यम से भाषा प्रौद्योगिकी के अध्ययन-अध्यापन के लिए एक आधार पुस्तक की आवश्यकता पिछले 35-30 वर्षों से महसूस की जा रही थी। इसी आवश्यकता की पूर्ती करने का प्रयास इस पुस्तक के माध्यम से किया गया है। आप सभी से पुस्तक का एक बार अवलोकन करने और अपनी प्रतिक्रिया देने का अनुरोध है। 


 

पुरोवाक्

 

भाषा प्रौद्योगिकी (Language Technology) एक ऐसा विशिष्ट क्षेत्र है, जो कंप्यूटर और मानव भाषा के मध्य संवाद को सहज बनाने के लिए भाषा अध्ययन और उपकरण विकास संबंधी कार्य करता है। इस क्षेत्र में विद्वान मानव भाषा को गढ़ने वाली इकाइयों- ध्वनि, शब्द, वाक्य और अर्थ आदि का अध्ययन करते हैं। इस विश्लेषण का कंप्यूटर पर अनुप्रयोग करते हुए अनुवाद, भाषा शिक्षण, सूचना खोज, पाठ सारांशीकरण, स्वचालित प्रश्नोत्तर आदि के लिए उपकरणों और आवश्यक प्रौद्योगिकी का विकास किया जाता है। ये सभी कार्य भाषा प्रौद्योगिकी को सूचना प्रौद्योगिकी के विशेष क्षेत्र के रूप में स्थापित करते हैं। अब इस क्षेत्र में कृत्रिम मेधा(AI) की भूमिका अत्यंत महत्वपूर्ण हो चुकी है।  

किसी भी देश के समग्र विकास के लिए ज्ञान-विज्ञान और तकनीकी संबंधी सामग्री का उसी देश की भाषा में होना आवश्यक है। स्वतंत्रता प्राप्ति के पश्चात भारत में अंग्रेजी की स्थिति भारतीय भाषाओं की तुलना में एक प्रभुत्वशाली भाषा के रूप में रही। भारत में अन्य भारतीय भाषाओं की तुलना में अंग्रेजी की ऐसी आभा बनी रही कि अंग्रेजी बोलने वालों ने छद्म गौरव का बोध किया। साथ ही शिक्षा, विज्ञान और तकनीकी विकास की भाषा अंग्रेजी ही बनी रही। इन क्षेत्रों में अंग्रेजी की तुलना में भारतीय भाषाओं में उतना काम नहीं हो सका, जितना अपेक्षित था।

समय के साथ मातृभाषा की महत्ता की समझ, भारत की भाषायी समृद्धि का बोध और भारत सरकार की राष्ट्रीय शिक्षा नीति 2020 जैसी राष्ट्रवादी नीति के कारण अब भारतीय भाषाओं को भी फलने-फूलने का प्रचुर अवसर मिला है। इस अवसर को संपूर्णता तभी प्राप्त हो सकती है जब उच्च शिक्षा, तकनीकी और ज्ञान विज्ञान के सभी क्षेत्रों में हिंदी और भारतीय भाषाओं में भी प्रचुर मात्रा में सामग्री उपलब्ध कराई जाए।

 प्रो. धनजी प्रसाद भाषा प्रौद्योगिकी के उत्कृष्ट अध्येता और विद्वान हैं। भाषा प्रौद्योगिकी को आधार बनाकर किया गया उनका यह कार्य इस क्षेत्र के अध्ययनकर्ताओं और शोधार्थियों के लिए अत्यंत महत्वपूर्ण मार्गदर्शक सिद्ध होगा। भाषा प्रौद्योगिकी के परिचय से लेकर प्राकृतिक भाषा संसाधन, इसके उपकरण और अनुप्रयोग क्षेत्र, कंप्यूटेशनल पक्ष, भाषायी पक्ष तथा कृत्रिम मेधा और भाषा प्रौद्योगिकी तक किया गया यह अनुशीलन अत्यंत विशिष्ट और उत्कृष्ट बन पड़ा है।

यह ग्रंथ भाषा के अध्ययन की दिशा में आने वाली पीढ़ी के लिए न केवल उपयोगी होगा, बल्कि उनके अध्ययन में भी सहायक बनेगा। प्रो. प्रसाद केंद्रीय हिंदी संस्थान में आचार्य के रूप में अपनी सेवाएँ देते हुए शोध के क्षेत्र में भी अपना उत्कृष्ट योगदान कर रहे हैं। मैं प्रो. प्रसाद के उन्नत अकादमिक जीवन के लिए हार्दिक शुभकामना देता हूँ। मुझे विश्वास है कि यह ग्रंथ भाषा प्रौद्योगिकी के क्षेत्र में मील का पत्थर सिद्ध होगा।

 

 

14 अप्रैल 2026, डॉ. बाबासाहब आंबेडर जयंती             

 

प्रो. सुरेंद्र दुबे

उपाध्यक्ष, केंद्रीय हिंदी शिक्षण मंडल

शिक्षा मंत्रालय, भारत सरकार

 

 


 

 

आमुख

 

20वीं शताब्दी में कंप्यूटर और इंटरनेट के योग से विकसित हुई तकनीक एक व्यापक डिजिटल क्रांति के रूप में मानव सभ्यता के सामने उपस्थित हुई है। इस क्रम में डेटा और प्रौद्योगिकी के योग से अनेक क्षेत्रों का विकास हुआ है, जिन्हें हम सामूहिक रूप से सूचना प्रौद्योगिकी के नाम से जानते हैं। सूचना और संसाधन के स्रोत एवं अनुप्रयोग की विविधता के क्रम में सूचना प्रौद्योगिकी के अनेक क्षेत्र विकसित हो चुके हैं, जिनमें से भाषा से संबंधित क्षेत्र ‘भाषा प्रौद्योगिकी’ है।

हिंदी में भाषा प्रौद्योगिकी का क्षेत्र आज के डिजिटल युग में अत्यंत महत्वपूर्ण और तेजी से विकसित होता हुआ क्षेत्र है। सूचना प्रौद्योगिकी के विस्तार के साथ-साथ भाषाई संसाधनों और उपकरणों की मांग भी बढ़ी है, जिसके परिणामस्वरूप हिंदी भाषा के लिए विभिन्न तकनीकी साधनों का विकास किया जा रहा है। वर्तमान समय में हिंदी इंटरनेट, मोबाइल एप्लिकेशन, सोशल मीडिया, ई-गवर्नेंस और शिक्षा के क्षेत्र में व्यापक रूप से प्रयुक्त हो रही है, जिससे भाषा प्रौद्योगिकी की आवश्यकता और भी अधिक स्पष्ट हो जाती है।

विश्व में 1950 के दशक से ही भाषा प्रौद्योगिकी के क्षेत्र में विविध कार्य आरंभ हो चुके थे, जिसमें उपकरण एवं प्रणाली विकास के साथ-साथ प्रचुर मात्रा में लिखित साहित्य का सृजन भी किया गया। भारत में कंप्यूटर क्रांति 1990 के दशक में हुई, जिसके पश्चात भारत में भी भाषा प्रौद्योगिकी के क्षेत्र में विभिन्न संस्थाओं द्वारा अनेक कार्य किए गए तथा उनसे संबंधित सामग्री का लेखन भी हुआ। यह लेखन मुख्य रूप से अंग्रेजी में ही रहा। कुछ विद्वानों द्वारा हिंदी में भी थोड़े बहुत प्रयास किए गए, किंतु ये प्रयास अपर्याप्त जान पड़ते हैं। आज भी हमारे पास हिंदी में भाषा प्रौद्योगिकी के सामान्य अध्येता के लिए परिचयात्मक, प्रगत या वर्तमान स्थिति को समुचित रूप से प्रस्तुत करने वाली अद्यतन पुस्तकों का अभाव दिखाई पड़ता है। हिंदी को आधुनिक विश्व भाषा के रूप में स्थापित करने के लिए यह आवश्यक है कि आधुनिक सूचना प्रौद्योगिकी के सभी क्षेत्रों से संबंधित अद्यतन पुस्तकें हिंदी माध्यम से भी उपलब्ध हों। भाषा प्रौद्योगिकी के लिए प्रो. धनजी प्रसाद द्वारा किया गया यह कार्य एक सराहनीय प्रयास है, जो इस दिशा में एक  के रूप में पूर्ति करता है।

केंद्रीय हिंदी संस्थान, आगरा को हाल ही में भारत सरकार द्वारा सम-विश्वविद्यालय विशिष्ट श्रेणी का दर्जा दिया गया है। सम-विश्वविद्यालय बनने के उपरांत संस्थान इस बात को प्राथमिकता देगा कि भाषा प्रौद्योगिकी की शिक्षा हिंदी माध्यम में उपलब्ध की जाए । इस दृष्टि को ध्यान में रखते हुए संस्थान ने हिंदी भाषा शिक्षण को ध्यान में रखकर जो बारह विभाग प्रस्तावित किए है उनमें से एक विभाग भाषा प्रौद्योगिकी का भी है। हिंदी माध्यम से भाषा प्रौद्योगिकी की उपाधि देनेवाला संस्थान भारत वर्ष में एक अद्वितीय संस्थान होगा। उस दृष्टि से भी इस पुस्तक की प्रासंगिकता और अधिक सराहनीय है।

आशा है कि हमारे परियोजना विभाग के विभागाध्यक्ष तथा मदन मोहन मालवीय शिक्षक प्रशिक्षण केंद्र के निदेशक आचार्य धनजी प्रसाद द्वारा लिखित यह पुस्तक मील का पत्थर सिद्ध होगी ।

धन्यवाद!

                सुनील बाबुराव कुळकर्णी

                        निदेशक आचार्य

         केंद्रीय हिंदी संस्थान, आगरा; तथा

  राष्ट्रीय सिंधी विकास परिषद, नई दिल्ली, उच्चतर शिक्षा विभाग

शिक्षा मंत्रालय, भारत सरकार, नई दिल्ली

 


 

भूमिका

 

जिज्ञासा, विचार और स्मृति' मानव मन की वे युक्तियाँ हैं, जिनके माध्यम से मनुष्य ने अपने परिवेश में उपलब्ध सभी प्रकार की चीजों का विश्लेषण करने, समझने और इस क्रम में सृजित ज्ञान को दूसरों तक पहुँचाने का निरंतर कार्य किया है। यह परंपरा मानव सभ्यता के उत्तरोत्तर विकास का माध्यम बनी है। मनुष्य ने परिवेश में उपलब्ध चीजों का ज्ञान ही प्राप्त नहीं किया है, बल्कि उस ज्ञान के आधार पर अनेक ऐसी चीजों का भी अविष्कार किया है, जिन्होंने मानव जीवन को सरल और गतिक बनाया है और इस प्रकार से मानव सभ्यता का विकास हुआ है। इस विकास क्रम में निरंतर हुए अविष्कारों और खोजों ने न केवल हमारे जीवन को एक दिशा दी है बल्कि अन्य प्रकार की नवीन खोजों तथा अविष्कारों का मार्ग भी प्रशस्त किया है। इस प्रकार हुए अनेक अविष्कारों में एक महत्वपूर्ण आविष्कार 'कंप्यूटर' भी है, जिसकी आज हमारे जीवन के लगभग सभी क्षेत्रों में उपयोगिता निर्विवाद है।

 कंप्यूटर और इंटरनेट का प्रभाव हमारे क्रियाकलापों पर इतना अधिक हो चुका है कि आज वास्तविक संसार के समानांतर एक नया आभासी डिजिटल संसार भी निर्मित हो चुका है। इस संसार में सब प्रकार की सूचनाएँ, ज्ञान-विज्ञान, विचार और अभिव्यक्ति आदि 'डेटा' (Data) मात्र हैं। डिजिटल गणना की दृष्टि से कंप्यूटर की क्षमता असीम है। वह अरबों-खरबों की संख्याओं की एक सेकेंड से भी कम समय में गणना कर सकता है, छँटाई कर सकता है या उन पर कोई भी गणितीय संक्रिया कर सकता है, किंतु उसकी सबसे बड़ी सीमा यह है कि वह उन्हें समझ नहीं सकता। इस कारण आज मशीन के अंदर डेटा की समझ और उसके आधार पर निर्णय लेने की क्षमता का विकास करने संबंधी कार्य व्यापक स्तर पर किए जा रहे हैं, जिन्हें हम तकनीकी रूप से 'कृत्रिम बुद्धि' (AI) के नाम से जानते हैं। इसके अंतर्गत मशीनों को मनुष्य की तरह व्यवहार करने या मनुष्य के साथ संवाद स्थापित करने योग्य बनाने का प्रयास किया जा रहा है। इस क्षेत्र में पर्याप्त प्रगति हुई है, किंतु हम जानते हैं कि मानव मन के अंदर समझ एवं विचार की प्रक्रिया संपन्न होने तथा परस्पर व्यवहार करने का आधारभूत माध्यम 'भाषा' है। अतः मानव मशीन संवाद या मशीन के अंतर्गत समझ विकसित करना तब तक संभव नहीं है, जब तक उसके अंदर भी मानव भाषाओं का ज्ञान स्थापित न कर दिया जाए।

कंप्यूटर या मशीन के अंतर्गत मानव भाषाओं के ज्ञान को स्थापित करने की प्रक्रिया 'प्राकृतिक भाषा संसाधन' (NLP) कहलाती है। इसके लिए मानव भाषाओं का तार्किक रूप में संरचित ज्ञान तथा इसके अनुप्रयोग हेतु प्रोग्रामिंग और डेटाबेस (एवं कार्पस) निर्माण एवं प्रबंधन संबंधी ज्ञान की आवश्यकता होती है। इन सभी का अध्ययन-अध्यापन तीन अंतरानुशासनिक ज्ञानानुशासनों के अंतर्गत किया जाता है- भाषा  प्रौद्योगिकी (Language Technology- LT), कंप्यूटेशनल भाषाविज्ञान (Computational Linguistics- CL) तथा भाषा अभियांत्रिकी (Language Engineering- LE)। प्रस्तुत पुस्तक इनमें से 'भाषा  प्रौद्योगिकी' (LT) का परिचय कराती है। पुस्तक का गठन इस प्रकार है-

 पहले अध्याय में भाषा प्रौद्योगिकी का परिचय दिया गया है। इसमें सबसे पहले प्रौद्योगिकी की अवधारणा स्पष्ट करते हुए विज्ञान और प्रौद्योगिकी के संबंध की चर्चा की गई है। इसके पश्चात इस बात पर भी विचार किया गया है कि 'क्या भाषा (और लेखन) स्वयं एक प्रौद्योगिकी है?'। इस क्रम में प्रौद्योगिकी और सूचना प्रौद्योगिकी पर भी प्रकाश डाला गया है। आगे भाषा प्रौद्योगिकी के स्वरूप और उद्देश्य को स्पष्ट किया गया है तथा इसके समानांतर विषय कंप्यूटेशनल भाषाविज्ञान से इसके संबंध और अंतर की विस्तृत चर्चा की गई है। अंत में भाषा  प्रौद्योगिकी और भाषा अभियांत्रिकी पर भी संक्षेप में प्रकाश डाला गया है और भारत में भाषा प्रौद्योगिकी के विकास का अत्यंत संक्षिप्त परिचय दिया गया है, क्योंकि भाषा प्रौद्योगिकी के 10 से अधिक अनुप्रयोग क्षेत्र हैं, उन सभी में भारत की अनेक संस्थाओं में कार्य हो रहा है। अतः सभी को समेट पाना अपने-आप में बड़ा कार्य है।

 दूसरे अध्याय में भाषा प्रौद्योगिकी के परिप्रेक्ष्य में प्राकृतिक भाषा संसाधन के विविध पक्षों की सविस्तार चर्चा की गई है, जिसमें प्राकृतिक भाषा संसाधन (NLP) का परिचय देते हुए प्राकृतिक भाषा बोधन (NLU) के साथ उसके संबंध को स्पष्ट किया गया है। इसके पश्चात प्राकृतिक भाषा संसाधन के अंतर्गत होने वाली दो प्रमुख प्रक्रियाओं- विश्लेषण (Analysis) और प्रजनन (Generation) को बताते हुए प्राकृतिक भाषा संसाधन के प्रकार और इसके विकास के चरणों को स्थान दिया गया है। आगे भाषा प्रौद्योगिकी में वाक् संसाधन (Speech Processing) और पाठ संसाधन (Text Processing) के अंतर्गत आने वाली प्रक्रियाओं को समझाते हुए भाषा प्रौद्योगिकी के लिए आवश्यक प्राकृतिक भाषा संसाधन के अभिगम (Approach) को बताया गया है।

तीसरे अध्याय में भाषा प्रौद्योगिकी के अंतर्गत विकसित किए जाने वाले भाषायी उपकरणों तथा इसके अनुप्रयोग क्षेत्रों की सविस्तार चर्चा की गई है। इसमें भाषायी उपकरणों को तीन भागों में बाँटा गया है- पूर्व भाषा संसाधन उपकरण, घटक उपकरण तथा अनुप्रयोगात्मक उपकरण। रूप विश्लेषक (Morph Analyzer),  शब्द भेद टैगर (POS Tagger) तथा पद-विच्छेदक (Parser) जैसे उपकरणों को घटक उपकरण के रूप में स्थान दिया गया है, तो वर्तनी जाँचक (Spell Checker), लिप्यंतरण प्रणाली (Transliteration System) और व्याकरण जाँचक (Grammar Checker) जैसे उपकरणों को अनुप्रयोगात्मक उपकरण के रूप में प्रस्तुत किया गया है। इसके पश्चात भाषा  प्रौद्योगिकी के 12 अनुप्रयोग क्षेत्रों- मशीनी अनुवाद (MT),  प्रकाशिक अक्षर अभिज्ञान (OCR),  पाठ से वाक् (TTS) और वाक् से पाठ (STT), सूचना प्रत्यानयन (IR), पाठ सारांशीकरण (Text Summarization) तथा प्रश्न उत्तर प्रणालियाँ (QAS) आदि को बताया गया है। अंत में भाषा प्रौद्योगिकी के अंतर्गत आवश्यक प्रणाली मूल्यांकन (System Evaluation) का भी समावेश किया गया है, जिसमें मूल्यांकन मानदंडों और मूल्यांकन विधियों की चर्चा की गई है।

 भाषा प्रौद्योगिकी एक अंतरानुशासनिक विषय है, जिसमें एक ओर भाषाविज्ञान है, जो मानव भाषाओं का सैद्धांतिक ज्ञान प्रदान करता है तो दूसरी ओर कंप्यूटरविज्ञान है, जो आवश्यक अनुप्रयोगात्मक ज्ञान से संबंधित है। अनुप्रयोग की आवश्यकता के अनुसार ही सैद्धांतिक ज्ञान सृजित किया जाता है। इसलिए चौथे अध्याय में भाषा प्रौद्योगिकी के अनुप्रयोगात्मक (कंप्यूटेशनल) पक्ष को स्थान दिया गया है, जिसमें- प्रोग्राम क्या है ?, एल्गोरिद्म (Algorithm), फ्लोचार्ट (Flowchart) स्यूडोकोड (Pseudocode),  डेटाबेस प्रबंधन प्रणाली (DBMS) तथा प्रोग्रामिंग भाषा की चर्चा की गई है। प्रोग्रामिंग भाषा के अंतर्गत सी शार्प (C#) और पाइथन (Python) के बारे में बताया गया है।

पाँचवें अध्याय में भाषा प्रौद्योगिकी के भाषायी पक्ष को स्थान दिया गया है। इसके अंतर्गत बताया गया है कि भाषा प्रौद्योगिकी के लिए किस प्रकार के भाषायी ज्ञान की आवश्यकता पड़ती है तथा वह भाषाविज्ञान के किन पक्षों से प्राप्त होता है। इस क्रम में भाषा प्रौद्योगिकी और व्याकरण फ्रेमवर्क’, ‘कोश और संगणकीय कोश’  तथा भाषा प्रौद्योगिकी के संदर्भ में अर्थ और आर्थी निरूपण की सविस्तार चर्चा की गई है।

  भाषा प्रौद्योगिकी का मूल उद्देश्य प्राकृतिक भाषा संसाधन है, जिसके माध्यम से विभिन्न प्रकार के भाषायी उपकरणों का विकास किया जाता है और  उनका प्रयोग विविध अनुप्रयोग क्षेत्रों में किया जाता है। यह कार्य अंततः कृत्रिम बुद्धि तक जाकर अपने उद्देश्य की संपूर्णता को प्राप्त करता है। अतः भाषा प्रौद्योगिकी के विद्यार्थी या अध्येता को 'कृत्रिम बुद्धि' (AI) का ज्ञान आवश्यक है। इसे ही ध्यान में रखते हुए छठवें अध्याय में भाषा प्रौद्योगिकी और कृत्रिम बुद्धि की चर्चा की गई है। इसमें सर्वप्रथम कृत्रिम बुद्धि का परिचय देते हुए इसके क्षेत्रों की चर्चा की गई है। इसके पश्चात कृत्रिम बुद्धि के संदर्भ में मशीनी अधिगम (Machine Learning- ML), गहन अधिगम (Deep Learning- DL) तथा न्यूरल नेटवर्क (Neural Network- NN) को सविस्तार समझाया गया है। इस अध्याय के अंत में यह भी स्पष्ट किया गया है कि किस प्रकार के न्यूरल नेटवर्क प्राकृतिक भाषा संसाधन संबंधी कार्यों में अधिक उपयोगी होते हैं और चैटजीपीटी जैसे उन्नत सॉफ्टवेयर किस प्रकार के बृहत भाषा मॉडलों (LLMs) का प्रयोग करते हैं 

इस प्रकार से यह पुस्तक भाषा प्रौद्योगिकी को समझने तथा इस क्षेत्र में आगे कार्य के लिए आधारभूत ज्ञान प्रदान करती है। भाषा प्रौद्योगिकी अपने-आप में एक अत्यंत विस्तृत क्षेत्र है। इसके सभी पक्षों को सविस्तार एक पुस्तक में समेट पाना संभव नहीं है, फिर भी यह पुस्तक भाषा प्रौद्योगिकी के सभी प्रमुख पक्षों का आधारभूत परिचय प्रदान करती है, तथा अध्येताओं को आगे गहन अध्ययन के लिए प्रेरित करती है। मुझे पूर्ण विश्वास है कि इस पुस्तक के माध्यम से विद्यार्थी भाषा प्रौद्योगिकी का परिचय प्राप्त कर इस क्षेत्र में गहन अध्ययन और शोध आदि कार्यों के लिए उन्मुख हो सकेंगे।

इस पुस्तक के लेखन में प्रत्यक्ष या परोक्ष रूप से जिन विद्वज्जन और स्वजन का सहयोग मिला है, मैं उन सभी के प्रति कृतज्ञता ज्ञापित करता हूँ। इस क्रम में मैं केंद्रीय हिंदी शिक्षण मंडल के उपाध्यक्ष प्रो. सुरेंद्र दुबे एवं केंद्रीय हिंदी संस्थान, आगरा के निदेशक प्रो. सुनील बाबुराव कुळकर्णी के प्रति हृदय से कृतज्ञता ज्ञापित करता हूँ, जिन्होंने नियमित रूप से मुझे प्रोत्साहित किया है। मैं केंद्रीय हिंदी संस्थान और म.गां.अं.हिं.वि., वर्धा के सभी अग्रज-अनुज शिक्षकों के प्रति आभार व्यक्त करता हूँ, जिनसे मुझे सदैव संबल एवं सहयोग मिला है। इस पुस्तक का लेखन म.गां.अं.हिं.वि., वर्धा में ही हुआ था, जिसे समय के साथ अद्यतन करते हुए वर्तमान में प्रकाशित किया जा रहा है। अंत में गुरुवर प्रो. अनिल कुमार पाण्डेय, पत्नी (रागिनी) एवं माता-पिता समेत अन्य स्नेहीजन के प्रति भी कृतज्ञ हूँ, जिनके प्रेम और स्नेह से इस पुस्तक को पूर्ण करने में सफल हो सका। 

 

प्रो. धनजी प्रसाद,

केंद्रीय हिंदी संस्थान, आगरा

विषय सूची

 

 

1.    भाषा प्रौद्योगिकी : परिचय                                              15

(Language Technology: An Introduction)

1.1 प्रौद्योगिकी (Technology) : अवधारणा और स्वरूप                                                                                           16

1.2 विज्ञान और प्रौद्योगिकी                                                            18

1.3 क्या भाषा स्वयं एक प्रौद्योगिकीहै?                                       20

1.4 प्रौद्योगिकी और सूचना प्रौद्योगिकी                                              22

1.5 भाषा प्रौद्योगिकी : स्वरूप और उद्देश्य                                        26

1.5.1 भाषा प्रौद्योगिकी : स्वरूप

1.5.2 भाषा प्रौद्योगिकी : उद्देश्य

1.5.3 भाषा प्रौद्योगिकी और मानव भाषा प्रौद्योगिकी

1.6 भाषा प्रौद्योगिकी और कंप्यूटेशनल भाषाविज्ञान                            36

1.6.1 भाषा प्रौद्योगिकी और कंप्यूटेशनल भाषाविज्ञान की पृष्ठभूमि

1.6.2 भाषा प्रौद्योगिकी और कंप्यूटेशनल भाषाविज्ञान का उद्देश्य

1.6.3 भाषा प्रौद्योगिकी और कंप्यूटेशनल भाषाविज्ञान के अध्ययन क्षेत्र

1.6.4 भाषा प्रौद्योगिकी और कंप्यूटेशनल भाषाविज्ञान के अभिगम

1.7 भाषा प्रौद्योगिकी और भाषा अभियांत्रिकी                                  45

1.8 भारत में भाषा प्रौद्योगिकी का विकास                                        47

2.    भाषा प्रौद्योगिकी और प्राकृतिक भाषा संसाधन                         55

(Language Technology and NLP)

2.1 प्राकृतिक भाषा संसाधन : परिचय                                            55

2.2 प्राकृतिक भाषा संसाधन और प्राकृतिक भाषा बोधन                    58

2.3 प्राकृतिक भाषा संसाधन : विश्लेषण और प्रजनन                        62

2.4 प्राकृतिक भाषा संसाधन के प्रकार                                             64

2.5 प्राकृतिक भाषा संसाधन : विकास के चरण                                67

2.5.1 नियम आधारित प्राकृतिक भाषा संसाधन

2.5.2 सांख्यिकीय प्राकृतिक भाषा संसाधन

2.5.3 गहन अधिगम आधारित प्राकृतिक भाषा संसाधन

2.6 वाक् संसाधन और पाठ संसाधन                                               71

2.6.1 वाक् संसाधन

2.6.2 पाठ संसाधन

2.7 भाषा प्रौद्योगिकी में प्राकृतिक भाषा संसाधन के अभिगम                                                                               79

3.    भाषा प्रौद्योगिकी : उपकरण और अनुप्रयोग क्षेत्र                        84

(Language Technology: Tools and Applied Areas)

3.1 भाषा प्रौद्योगिकी में उपकरण                                                    85

3.1.1 पूर्व-भाषा संसाधन उपकरण (फॉन्ट, फॉन्ट-परिवर्तक, शब्द-संसाधक)

3.1.2 घटक उपकरण (टोकनाइजर, रूपविश्लेषक, रूपसर्जक, प्रातिपदिक प्राप्तकर्ता (स्टेमर), टैगर, चंकर, पार्सर)

3.1.3 अनुप्रयोगात्मक उपकरण (वर्तनी जाँचक, व्याकरण जाँचक, लिप्यंतरक)

3.1.4 अन्य सहायक उपकरण (शब्द आवृत्ति गणक, स्टॉप शब्द प्राप्तकर्ता/पहचानक, दिनांक, समय और मुद्रा अभिज्ञानक, विराम चिह्न, विशिष्ट वर्ण, लोगोग्राम अभिज्ञानक, कॉनकॉर्डेंस प्राप्तकर्ता)

3.2 भाषा प्रौद्योगिकी के अनुप्रयोग क्षेत्र                                          122

3.2.1 मशीनी अनुवाद (MT)

3.2.2 प्रकाशिक अक्षर अभिज्ञान (OCR)

3.2.3  पाठ से वाक् (TTS) और वाक् से पाठ (STT)

3.2.4 सूचना प्रत्यानयन (IR)

3.2.5 पाठ सारांशीकरण (Text Summarization)

3.2.6 कंप्यूटेशनल कोश (Computational Lexicon)

3.2.7 कंप्यूटर साधित भाषा अधिगम/शिक्षण (CALL/CALT)

3.2.8 प्रश्न उत्तर प्रणालियाँ (QAS)

3.2.9 भाषा पठन एवं लेखन सहयोग (LRWA)

3.2.10  वार्ता प्रणालियाँ (Dialogue Systems)

3.2.11  वाक् अभिज्ञान (Voice Recognition)

3.2.12  कृत्रिम बुद्धि (Artificial Intelligence)                     

3.3 भाषा प्रौद्योगिकी : प्रणाली मूल्यांकन                                         151

3.3.1 मूल्यांकन मानदंड

3.3.2 मूल्यांकन विधियाँ                                                          

4.    भाषा प्रौद्योगिकी का कंप्यूटेशनल पक्ष                              157

(Computational Aspect of Language Technology)

4.1 प्रोग्राम (Program)                                                           157

4.1.1 प्रोग्राम : अवधारणा

4.1.2 प्रोग्राम निर्माण प्रक्रिया                                                    

4.2 एल्गोरिद्म, फ्लोचार्ट और स्यूडोकोड                                        160

4.2.1 एल्गोरिद्म (Algorithm)

4.2.2 फ्लोचार्ट (Flowchart)

4.2.3 स्यूडोकोड (Psuedocode)                                         

4.3 डेटाबेस प्रबंधन प्रणाली (DBMS)                                          173

4.3.1 डेटाबेस और डेटाबेस प्रबंधन

4.3.2 डेटाबेस प्रबंधन प्रणाली

4.4 प्रोग्रामिंग भाषा                                                                    179

4.4.1 प्रोग्रामिंग भाषा : परिचय

4.4.2 प्रोग्रामिंग भाषा के मूलभूत तत्व

4.4.3 सी. शार्प (C#)

4.4.4 पाइथन (Python)

4.5 भाषा संबंधी प्रोग्रामिंग                                                           205

5.    भाषा प्रौद्योगिकी का भाषायी पक्ष                                  207

(Linguistic Aspect of Language Technology)

5.1 भाषा प्रौद्यिगिकी के संदर्भ में भाषायी ज्ञान                               207

5.2 भाषा प्रौद्योगिकी और व्याकरण फ्रेमवर्क                                  210

5.2.1 व्याकरण फ्रेमवर्क क्या है?

5.2.2 सामान्य व्याकरण और इसकी सीमाएँ

5.2.3 प्रमुख व्याकरण फ्रेमवर्क

5.2.4 व्याकरण फ्रेमवर्कों की विषयवस्तु

5.2.5 व्याकरण फ्रेमवर्कों की सीमा

5.3 कोश और संगणकीय कोश                                                    234

5.4 भाषा प्रौद्योगिकी के संदर्भ में अर्थ और आर्थी निरूपण                                                                                        239

5.4.1 शब्द-संजाल (Wordnet)

5.4.2 आर्थी-संजाल (Semantic Net)

5.4.3 साँचा-संजाल (FrameNet)

5.4.4 प्रापबैंक (Propbank)

5.5 सांख्यिकीय अभिगम का भाषायी पक्ष                                       248

6.    भाषा प्रौद्योगिकी और कृत्रिम बुद्धि                                        255

(Language Technology and AI)

6.1 कृत्रिम बुद्धि : परिचय                                                           255

6.1.1 बुद्धि (Intelligence) क्या है?

6.1.2 बुद्धि के प्रकार्य (Functions of Intelligence)

6.1.3 बुद्धि और कृत्रिम बुद्धि

6.1.4 कृत्रिम बुद्धि के प्रकार

6.1.5 कृत्रिम बुद्धि : संक्षिप्त इतिहास

6.2 कृत्रिम बुद्धि के क्षेत्र                                                               267

6.3 कृत्रिम बुद्धि और मशीनी अधिगम                                           269

6.3.1 मशीनी अधिगम (Machine Learning) क्या है?

6.3.2 मशीनी अधिगम और कृत्रिम बुद्धि (ML and AI)

6.3.3 मशीनी अधिगम और गहन अधिगम (ML & DL)

6.3.4 गहन अधिगम में इनकोडिंग और डिकोडिंग (Encoding and Decoding in DL)

6.4 न्यूरल नेटवर्क (Neural Network- NN) मॉडल                  277

6.5 मशीनी अधिगम में प्रकार्य (Functions in ML)                    289

6.6 मशीनी अधिगम के चरण                                                       294

6.7 मशीनी अधिगम संबंधी सांख्यिकीय प्रक्रियाएँ/नियम                  297

6.8 मशीनी अधिगम एल्गोरिद्म और भाषा प्रौद्योगिकी                      306

6.9 बृहत भाषा मॉडल (LLMs)                                                  309

 

संदर्भ-सूची                                                                 313