हिंदी में भाषा प्रौद्योगिकी और संगणकीय (कंप्यूटेशनल) व्याकरण
भाषा प्रौद्योगिकी का उद्देश्य मानव भाषाओं के ज्ञान को मशीन में इस
प्रकार से स्थापित करना है कि इस प्रकार से विकसित मशीनी प्रणाली के अंदर भाषा की
समझ बनाई जा सके तथा उससे भाषा संबंधी कार्य कराए जा सकें। यह कार्य दो विधियों से
किया जाता है-
§
नियम आधारित (Rule-based)
§
कार्पस आधारित
(Corpus based)
इनमें से नियम आधारित विधि में ज्ञानरूपी डाटाबेस के रूप में संबंधित
भाषा के ‘कंप्यूटेशनल शब्दकोश’ और नियमों
के समुच्चय के रूप में ‘कंप्यूटेशनल व्याकरण’ की आवश्यकता पड़ती है। अतः कंप्यूटेशनल व्याकरण मानव भाषाओं के नियम
आधारित प्राकृतिक भाषा संसाधन के लिए आधार सामग्री-स्रोत है। इसके बिना नियम
आधारित सॉफ्टवेयर और उपकरणों का विकास नहीं किया जा सकता। प्राकृतिक भाषा संसाधन
में इसकी स्थिति को एक चित्र रूप में इसे निम्नलिखित प्रकार से समझ सकते हैं-
किसी भाषा के कंप्यूटेशनल व्याकरण में उन सभी नियमों और आधारभूत
ज्ञान की चर्चा होती है, जिनके माध्यम से उस भाषा से संबंधित सॉफ्टवेयर और
उपकरणों का विकास किया जाता है। हिंदी भाषा के संदर्भ में ‘हिंदी
का संगणकीय व्याकरण’ नाम से हिंदी के कंप्यूटेशनल व्याकरण का
विकास निर्माण डॉ. धनजी प्रसाद द्वारा किया गया है, जो 2019 में महात्मा गांधी अंतरराष्ट्रीय हिंदी
विश्वविद्यालय की ओर से राजकमल प्रकाशन द्वारा प्रकाशित है। इस पुस्तक के विवरण, भूमिका और विषय सूची संबंधी जानकारी के लिए निम्नलिखित लिंकों पर जाएं-
(1) हिंदी का संगणकीय व्याकरण : विषय सूची
(2) हिंदी का संगणकीय व्याकरण : भूमिका
(3) हिंदी का संगणकीय व्याकरण : डॉ. धनजी प्रसाद
कंप्यूटेशनल व्याकरण की विषयवस्तु
कंप्यूटेशनल व्याकरण की विषय
वस्तु के मुख्य रूप से 02 भाग किए जा सकते हैं-
§
किसी भाषा से संबंधित कौन-से तथा किस प्रकार के उपकरणों और सॉफ्टवेयर का विकास अपेक्षित है?
§
उन उपकरणों के विकास के लिए
कौन-से तथा किस प्रकार के भाषाई ज्ञान और नियमों की
आवश्यकता है?
‘हिंदी का संगणकीय व्याकरण’
पुस्तक की भूमिका में प्राकृतिक भाषा संसाधन के स्तरों की बात करते हुए इनमें से
विषयवस्तु के प्रथम प्रश्न के संदर्भ में निम्नलिखित प्रकार से चर्चा की गई है-
· पूर्व प्राकृतिक भाषा संसाधन (Pre-NLP) : इसमें
प्रोग्रामिंग, डाटाबेस प्रबंधन, फॉन्ट निर्माण और फॉन्ट परिवर्तन संबंधी कार्य आदि आते हैं। प्रोग्रामिंग
भी मुख्य रूप से स्ट्रिंग मैनिपुलेशन और डाटाबेस प्रबंधन प्रणाली से जोड़कर टूल्स
के निर्माण से संबंधित होनी चाहिए। भाषा संसाधन हेतु डाटाबेस प्रबंधन प्रणाली की
आवश्यकता इलेक्ट्रानिक शब्दकोश अथवा कार्पस संग्रह और प्रबंधन के लिए पड़ती है।
फॉन्ट निर्माण अथवा फॉन्ट परिवर्तन NLP नहीं है। NLP तो किसी पाठ के टंकित हो जाने बाद आरंभ होती है। अतः भाषा संसाधन संबंधी
कार्य के लिए इनका ज्ञान अपेक्षित तो है, किंतु केवल
इतना कर पाना NLP नहीं है। यह NLP से पूर्व की स्थिति है।
· प्राथमिक प्राकृतिक भाषा संसाधन (Primary-NLP) : NLP किसी मानव भाषा के ज्ञान को मशीन में स्थापित करने की प्रक्रिया है, जिससे मशीन द्वारा भाषा संबंधी कार्यों को स्वचलित रूप से संपन्न कराया जा
सके। अतः भाषा संबंधी ज्ञान को स्वन, स्वनिम, रूपिम, शब्द/पद, पदबंध, वाक्य और प्रोक्ति सभी भाषायी स्तरों पर
स्थापित करना होता है। यह कार्य मुख्यतः रूपविश्लेषण (Morph
Analysis) और रूपसर्जन (Morph Generation) से आरंभ होता है। अतः शब्द स्तर तक के विश्लेषण और प्रजनन से जुड़े टूल्स
का निर्माण करना प्राथमिक NLP है। इसमें संगणकीय
कोश निर्माण (Building Computational Lexicon), विराम-चिह्न अभिज्ञान एवं संसाधन (Punctuation Marks Recognition
and Processing), लिप्यंतरण प्रणाली (Transliteration
System), रूपविश्लेषण (Morph
Analysis) और रूपसर्जन (Morph Generation), वर्तनी जाँचक निर्माण (Building Spell Checker), दिनांक, समय और मुद्रा अभिज्ञान (Date,
Time and Currency Recognition) आदि कार्य आते हैं। अतः शब्द या पद
की आंतरिक रचना से संबंधित विश्लेषण और प्रजनन के कार्य प्राथमिक NLP के अंतर्गत आते हैं।
· केंद्रीय प्राकृतिक भाषा संसाधन (Central-NLP) : इसके
अंतर्गत शब्दभेद टैगिंग (Parts of Speech Tagging), पदबंध चिह्नन (Phrase Marking), व्याकरण
जाँचक निर्माण (Building Grammar Checker), स्वचलित
वाक्य प्रजनन (Automatic Sentence Generation) और
पद-विच्छेदन (Parsing) संबंधी कार्य आते हैं।
प्राथमिक NLP में विकसित किए गए सभी टूल्स इन
प्रणालियों के विकास में किसी-न-किसी रूप में प्रयोग में आते हैं। रूपविश्लेषक (Morph
Analyser) को एक टूल के रूप में देखा जा सकता है, किंतु भाषा व्यवहार संबंधी किसी कार्य में केवल रूपविश्लेषक की कोई
प्रत्यक्ष उपयोगिता नहीं है। इस टूल का वर्तनी जाँचक, व्याकरण
जाँचक, टैगर, पार्सर आदि
किसी भी सॉफ्टवेयर में प्रयोग किया जा सकता है। यही बात प्राथमिक NLP के सभी टूल्स पर लागू होती है। वर्तनी जाँचक और लिप्यंतरण प्रणालियों का
स्वतंत्र रूप से प्रयोग किया जाता है।
· प्रगत प्राकृतिक भाषा संसाधन (Advanced-NLP) : केंद्रीय NLP ही मूल NLP है। इसमें बताए गए टूलों और
सॉफ्टवेयरों द्वारा ही भाषायी अनुप्रयोग क्षेत्रों, जैसे-
मशीनी अनुवाद (Machine Translation), ओ.सी.आर. (OCR), सूचना प्रत्यानयन (Information Retrieval) आदि संबंधी कार्य होते हैं। किंतु इन सॉफ्टवेयरों के विकास में
संदिग्धार्थकता (Ambiguity), नामपद
अभिज्ञान (Name
Entity Recognition : NER), बहुशब्दीय अभिव्यक्ति (Multi-word
Expression- MWE), प्रोक्ति संदर्भ
(Discourse References) आदि संबंधी चुनौतियाँ आती हैं। इसके
अलावा अर्थ (Meaning) को मशीन में स्थापित करना
तथा अर्थ और तर्क (Meaning and Logic) को एक साथ
जोड़ना आदि आज भी चुनौतिपूर्ण कार्य हैं। इन चुनौतियों को हल करने के लिए किया जाने
वाला भाषा संसाधन संबंधी कार्य प्रगत NLP है। NLP से जुड़े सभी शोधकर्ता एवं संस्थान इस दिशा में प्रयासरत हैं। इन चुनौतियों
के संबंध में कार्य करने वाले व्यक्ति को केंद्रीय NLP के सॉफ्टवेयरों या प्रणालियों की विकास प्रक्रिया और कार्यप्रणाली का
ज्ञान होना आवश्यक है। अर्थात कोई भी व्यक्ति तब तक संदिग्धार्थकता (Ambiguity), नामपद अभिज्ञान (Name
Entity Recognition : NER), बहुशब्दीय अभिव्यक्ति (Multi-word
Expression), प्रोक्ति संदर्भ (Discourse
References) आदि पर कार्य नहीं कर सकता, जब
तक उसे टैगर, पार्सर, पदबंध
चिह्नक, वाक्य प्रजनक आदि की कार्यप्रणाली का ज्ञान न
हो। कई बार पी-एच. डी. शोधार्थियों द्वारा NLP संबंधी
बिना किसी पूर्वज्ञान के प्रगत NLP से संबंधित इन
विषयों पर शोध विषय ले लिए जाते हैं। इससे शोधार्थियों को अपना विषय समझने में ही
शोध का अधिकांश समय चला जाता है और कार्य गुणवत्तापूर्ण नहीं हो पाता। मेरी समझ से
यह उचित नहीं है। जब तक प्राथमिक और केंद्रीय NLP की
प्रणालियों की कार्यपद्धति का ज्ञान न हो, इन क्षेत्रों
में गुणवत्तापूर्ण कार्य कर पाना असंभव की तरह कठिन है।
इसके पश्चात संपूर्ण पुस्तक में विभिन्न अध्याय में इन उपकरणों और सॉफ्टवेयर के विकास के लिए आवश्यक हिंदी के ज्ञान संबंधी विस्तृत चर्चा की गई है।
No comments:
Post a Comment