Total Pageviews

Tuesday, February 14, 2023

हिंदी में भाषा प्रौद्योगिकी और संगणकीय (कंप्यूटेशनल) व्याकरण

 हिंदी में भाषा प्रौद्योगिकी और संगणकीय (कंप्यूटेशनल) व्याकरण

भाषा प्रौद्योगिकी का उद्देश्य मानव भाषाओं के ज्ञान को मशीन में इस प्रकार से स्थापित करना है कि इस प्रकार से विकसित मशीनी प्रणाली के अंदर भाषा की समझ बनाई जा सके तथा उससे भाषा संबंधी कार्य कराए जा सकें। यह कार्य दो विधियों से किया जाता है-

§  नियम आधारित (Rule-based)

§  कार्पस आधारित (Corpus based)

इनमें से नियम आधारित विधि में ज्ञानरूपी डाटाबेस के रूप में संबंधित भाषा के कंप्यूटेशनल शब्दकोश और नियमों के समुच्चय के रूप में कंप्यूटेशनल व्याकरण की आवश्यकता पड़ती है। अतः कंप्यूटेशनल व्याकरण मानव भाषाओं के नियम आधारित प्राकृतिक भाषा संसाधन के लिए आधार सामग्री-स्रोत है। इसके बिना नियम आधारित सॉफ्टवेयर और उपकरणों का विकास नहीं किया जा सकता। प्राकृतिक भाषा संसाधन में इसकी स्थिति को एक चित्र रूप में इसे निम्नलिखित प्रकार से समझ सकते हैं-


किसी भाषा के कंप्यूटेशनल व्याकरण में उन सभी नियमों और आधारभूत ज्ञान की चर्चा होती है, जिनके माध्यम से उस भाषा से संबंधित सॉफ्टवेयर और उपकरणों का विकास किया जाता है। हिंदी भाषा के संदर्भ में हिंदी का संगणकीय व्याकरण नाम से हिंदी के कंप्यूटेशनल व्याकरण का विकास निर्माण डॉ. धनजी प्रसाद द्वारा किया गया है, जो 2019 में महात्मा गांधी अंतरराष्ट्रीय हिंदी विश्वविद्यालय की ओर से राजकमल प्रकाशन द्वारा प्रकाशित है। इस पुस्तक के विवरण, भूमिका और विषय सूची संबंधी जानकारी के लिए निम्नलिखित लिंकों पर जाएं-

(1)  हिंदी का संगणकीय व्याकरण : विषय सूची

(2) हिंदी का संगणकीय व्याकरण : भूमिका

(3) हिंदी का संगणकीय व्याकरण : डॉ. धनजी प्रसाद

कंप्यूटेशनल व्याकरण की विषयवस्तु

 कंप्यूटेशनल व्याकरण की विषय वस्तु के मुख्य रूप से 02 भाग किए जा सकते हैं-

§  किसी भाषा से संबंधित कौन-से तथा किस प्रकार के उपकरणों और सॉफ्टवेयर का विकास अपेक्षित है?

§  उन उपकरणों के विकास के लिए कौन-से तथा किस प्रकार के भाषाई ज्ञान और नियमों की आवश्यकता है?

हिंदी का संगणकीय व्याकरण पुस्तक की भूमिका में प्राकृतिक भाषा संसाधन के स्तरों की बात करते हुए इनमें से विषयवस्तु के प्रथम प्रश्न के संदर्भ में निम्नलिखित प्रकार से चर्चा की गई है-

·        पूर्व प्राकृतिक भाषा संसाधन (Pre-NLP) : इसमें प्रोग्रामिंगडाटाबेस प्रबंधनफॉन्ट निर्माण और फॉन्ट परिवर्तन संबंधी कार्य आदि आते हैं। प्रोग्रामिंग भी मुख्य रूप से स्ट्रिंग मैनिपुलेशन और डाटाबेस प्रबंधन प्रणाली से जोड़कर टूल्स के निर्माण से संबंधित होनी चाहिए। भाषा संसाधन हेतु डाटाबेस प्रबंधन प्रणाली की आवश्यकता इलेक्ट्रानिक शब्दकोश अथवा कार्पस संग्रह और प्रबंधन के लिए पड़ती है। फॉन्ट निर्माण अथवा फॉन्ट परिवर्तन NLP नहीं है। NLP तो किसी पाठ के टंकित हो जाने बाद आरंभ होती है। अतः भाषा संसाधन संबंधी कार्य के लिए इनका ज्ञान अपेक्षित तो हैकिंतु केवल इतना कर पाना NLP नहीं है। यह NLP से पूर्व की स्थिति है।

·        प्राथमिक प्राकृतिक भाषा संसाधन (Primary-NLP) : NLP किसी मानव भाषा के ज्ञान को मशीन में स्थापित करने की प्रक्रिया हैजिससे मशीन द्वारा भाषा संबंधी कार्यों को स्वचलित रूप से संपन्न कराया जा सके। अतः भाषा संबंधी ज्ञान को स्वनस्वनिमरूपिमशब्द/पदपदबंधवाक्य और प्रोक्ति सभी भाषायी स्तरों पर स्थापित करना होता है। यह कार्य मुख्यतः रूपविश्लेषण (Morph Analysis) और रूपसर्जन (Morph Generation) से आरंभ होता है। अतः शब्द स्तर तक के विश्लेषण और प्रजनन से जुड़े टूल्स का निर्माण करना प्राथमिक NLP है। इसमें संगणकीय कोश निर्माण (Building Computational Lexicon)विराम-चिह्न अभिज्ञान एवं संसाधन (Punctuation Marks Recognition and Processing)लिप्यंतरण प्रणाली (Transliteration System)रूपविश्लेषण (Morph Analysis) और रूपसर्जन (Morph Generation), वर्तनी जाँचक निर्माण (Building Spell Checker)दिनांकसमय और मुद्रा अभिज्ञान (Date, Time and Currency Recognition) आदि कार्य आते हैं। अतः शब्द या पद की आंतरिक रचना से संबंधित विश्लेषण और प्रजनन के कार्य प्राथमिक NLP के अंतर्गत आते हैं।

·        केंद्रीय प्राकृतिक भाषा संसाधन (Central-NLP) : इसके अंतर्गत शब्दभेद टैगिंग (Parts of Speech Tagging), पदबंध चिह्नन (Phrase Marking), व्याकरण जाँचक निर्माण (Building Grammar Checker), स्वचलित वाक्य प्रजनन (Automatic Sentence Generation) और पद-विच्छेदन (Parsing) संबंधी कार्य आते हैं। प्राथमिक NLP में विकसित किए गए सभी टूल्स इन प्रणालियों के विकास में किसी-न-किसी रूप में प्रयोग में आते हैं। रूपविश्लेषक (Morph Analyser) को एक टूल के रूप में देखा जा सकता हैकिंतु भाषा व्यवहार संबंधी किसी कार्य में केवल रूपविश्लेषक की कोई प्रत्यक्ष उपयोगिता नहीं है। इस टूल का वर्तनी जाँचकव्याकरण जाँचकटैगरपार्सर आदि किसी भी सॉफ्टवेयर में प्रयोग किया जा सकता है। यही बात प्राथमिक NLP के सभी टूल्स पर लागू होती है। वर्तनी जाँचक और लिप्यंतरण प्रणालियों का स्वतंत्र रूप से प्रयोग किया जाता है।

·        प्रगत प्राकृतिक भाषा संसाधन (Advanced-NLP) : केंद्रीय NLP ही मूल NLP है। इसमें बताए गए टूलों और सॉफ्टवेयरों द्वारा ही भाषायी अनुप्रयोग क्षेत्रोंजैसे- मशीनी अनुवाद (Machine Translation), ओ.सी.आर. (OCR), सूचना प्रत्यानयन (Information Retrieval) आदि संबंधी कार्य होते हैं। किंतु इन सॉफ्टवेयरों के विकास में संदिग्धार्थकता (Ambiguity)नामपद अभिज्ञान (Name Entity Recognition : NER), बहुशब्दीय अभिव्यक्ति (Multi-word Expression- MWE)प्रोक्ति संदर्भ (Discourse References) आदि संबंधी चुनौतियाँ आती हैं। इसके अलावा अर्थ (Meaning) को मशीन में स्थापित करना तथा अर्थ और तर्क (Meaning and Logic) को एक साथ जोड़ना आदि आज भी चुनौतिपूर्ण कार्य हैं। इन चुनौतियों को हल करने के लिए किया जाने वाला भाषा संसाधन संबंधी कार्य प्रगत NLP है। NLP से जुड़े सभी शोधकर्ता एवं संस्थान इस दिशा में प्रयासरत हैं। इन चुनौतियों के संबंध में कार्य करने वाले व्यक्ति को केंद्रीय NLP के सॉफ्टवेयरों या प्रणालियों की विकास प्रक्रिया और कार्यप्रणाली का ज्ञान होना आवश्यक है। अर्थात कोई भी व्यक्ति तब तक संदिग्धार्थकता (Ambiguity)नामपद अभिज्ञान (Name Entity Recognition : NER), बहुशब्दीय अभिव्यक्ति (Multi-word Expression)प्रोक्ति संदर्भ (Discourse References) आदि पर कार्य नहीं कर सकताजब तक उसे टैगरपार्सरपदबंध चिह्नकवाक्य प्रजनक आदि की कार्यप्रणाली का ज्ञान न हो। कई बार पी-एच. डी. शोधार्थियों द्वारा NLP संबंधी बिना किसी पूर्वज्ञान के प्रगत NLP से संबंधित इन विषयों पर शोध विषय ले लिए जाते हैं। इससे शोधार्थियों को अपना विषय समझने में ही शोध का अधिकांश समय चला जाता है और कार्य गुणवत्तापूर्ण नहीं हो पाता। मेरी समझ से यह उचित नहीं है। जब तक प्राथमिक और केंद्रीय NLP की प्रणालियों की कार्यपद्धति का ज्ञान न होइन क्षेत्रों में गुणवत्तापूर्ण कार्य कर पाना असंभव की तरह कठिन है।

  इसके पश्चात संपूर्ण पुस्तक में विभिन्न अध्याय में इन उपकरणों और सॉफ्टवेयर के विकास के लिए आवश्यक हिंदी के ज्ञान संबंधी विस्तृत चर्चा की गई है।


No comments:

Post a Comment