भाषा और भाषा प्रौद्योगिकी: भाषा प्रौद्योगिकी : परिप्रेक्ष्य और अभिगम-3

Monday, October 22, 2018

भाषा प्रौद्योगिकी : परिप्रेक्ष्य और अभिगम-3

......................................................................................................................................................

इकाई - 3 भाषा प्रौद्योगिकी : विविध स्तरीय परिप्रेक्ष्य

......................................................................................................................................................

भाषा प्रौद्योगिकी का कार्य मानव भाषाओं का सैद्धांतिक अध्ययन करके प्राप्त ज्ञान को मशीन (कंप्यूटर) में इस प्रकार से स्थापित करना है कि उसके माध्यम से मशीन द्वारा मानव भाषा संबंधी कार्य कराए जा सकें। इसे ही तकनीकी रूप से ‘प्राकृतिक भाषा संसाधन’ (NLP) कहते हैं। प्राकृतिक भाषा संसाधन के अंतर्गत अनेक प्रकार के साफ्टवेयरों और प्रणालियों का विकास किया जाता है। इनमें से कुछ केवल कंप्यूटर से संबंधित हैं, तो कुछ का संबंध भाषा की इकाइयों के संग्रह और आधारभूत नियमों के विकास से है। अतः इन सभी को एक ही दृष्टि से देखने के बजाए अलग-अलग स्तरों पर देखा जा सकता है। इस दृष्टि से विचार करने पर भाषा प्रौद्योगिकी के अंतर्गत प्राकृतिक भाषा संसाधन के चार स्तर किए जा सकते हैं-

3.1 पूर्व प्राकृतिक भाषा संसाधन (Pre-NLP)

इसमें प्रोग्रामिंग, डाटाबेस प्रबंधन, फॉन्ट निर्माण और फॉन्ट परिवर्तन संबंधी कार्य आदि आते हैं। फॉन्ट निर्माण अथवा फॉन्ट परिवर्तन NLP नहीं है। NLP तो किसी पाठ के टंकित हो जाने बाद आरंभ होती है।

3.2 प्राथमिक प्राकृतिक भाषा संसाधन (Primary-NLP)

NLP के अंतर्गत भाषा संबंधी ज्ञान को स्वन, स्वनिम, रूपिम, शब्द/पद, पदबंध, वाक्य और प्रोक्ति सभी भाषायी स्तरों पर स्थापित करना होता है। यह कार्य मुख्यतः रूपविश्लेषण (Morph Analysis) और रूपसर्जन (Morph Generation) से आरंभ होता है। अतः शब्द स्तर तक के विश्लेषण और प्रजनन से जुड़े टूल्स का निर्माण करना प्राथमिक NLP है। इसमें कंप्यूटेशनल कोश निर्माण (Building Computational Lexicon), विराम-चिह्न अभिज्ञान एवं संसाधन (Punctuation Marks Recognition and Processing), लिप्यंतरण प्रणाली (Transliteration System), रूपविश्लेषण (Morph Analysis) और रूपसर्जन (Morph Generation), वर्तनी जाँचक निर्माण (Building Spell Checker), दिनांक, समय और मुद्रा अभिज्ञान (Date, Time and Currency Recognition) आदि कार्य आते हैं।

3.3 केंद्रीय प्राकृतिक भाषा संसाधन (Central-NLP)

इसके अंतर्गत शब्दभेद टैगिंग (Parts of Speech Tagging), पदबंध चिह्नन (Phrase Marking), व्याकरण जाँचक निर्माण (Building Grammar Checker), स्वचलित वाक्य प्रजनन (Automatic Sentence Generation) और पद-विच्छेदन (Parsing) संबंधी कार्य आते हैं। प्राथमिक NLP में विकसित किए गए सभी टूल्स इन प्रणालियों के विकास में किसी-न-किसी रूप में प्रयोग में आते हैं। रूपविश्लेषक (Morph Analyser) को एक टूल के रूप में देखा जा सकता है, किंतु भाषा व्यवहार संबंधी किसी कार्य में केवल रूपविश्लेषक की कोई प्रत्यक्ष उपयोगिता नहीं है। इस टूल को वर्तनी जाँचक, व्याकरण जाँचक, टैगर, पार्सर आदि किसी सॉफ्टवेयर में प्रयुक्त किया जा सकता है।

3.4 प्रगत प्राकृतिक भाषा संसाधन (Advanced-NLP)

केंद्रीय NLP ही मूल NLP है। इसमें बताए गए टूलों और सॉफ्टवेयरों द्वारा ही भाषायी अनुप्रयोग क्षेत्रों, जैसे- मशीनी अनुवाद (Machine Translation), ओ.सी.आर. (OCR), सूचना प्रत्यानयन (Information Retrival) आदि संबंधी कार्य होते हैं। किंतु इन सॉफ्टवेयरों के विकास में संदिग्धार्थकता (Ambiguity), नामपद अभिज्ञान (Name Entity Recognition : NER), बहुशब्दीय अभिव्यक्ति (Multi-word Expression- MWE), प्रोक्ति संदर्भ (Discourse References) आदि संबंधी चुनौतियाँ आती हैं। इसके अलावा अर्थ (Meaning) को मशीन में स्थापित करना तथा भाषा और तर्क (Meaning and Logic) को एक साथ जोड़ना आदि आज भी चुनौतिपूर्ण कार्य हैं। इन चुनौतियों को हल करने के लिए किया जाने वाला भाषा संसाधन संबंधी कार्य प्रगत NLP है।

Total Pageviews

विषय सूची

Monday, October 22, 2018

भाषा प्रौद्योगिकी : परिप्रेक्ष्य और अभिगम-3

No comments:

Post a Comment