......................................................................................................................................................
इकाई - 3 भाषा
प्रौद्योगिकी : विविध स्तरीय परिप्रेक्ष्य
......................................................................................................................................................
भाषा
प्रौद्योगिकी का कार्य मानव भाषाओं का सैद्धांतिक अध्ययन करके प्राप्त ज्ञान को
मशीन (कंप्यूटर) में इस प्रकार से स्थापित करना है कि उसके माध्यम से मशीन द्वारा
मानव भाषा संबंधी कार्य कराए जा सकें। इसे ही तकनीकी रूप से ‘प्राकृतिक भाषा संसाधन’ (NLP) कहते
हैं। प्राकृतिक भाषा संसाधन के अंतर्गत अनेक प्रकार के साफ्टवेयरों और प्रणालियों
का विकास किया जाता है। इनमें से कुछ केवल कंप्यूटर से संबंधित हैं, तो कुछ का संबंध भाषा की इकाइयों के संग्रह और आधारभूत नियमों के विकास
से है। अतः इन सभी को एक ही दृष्टि से देखने के बजाए अलग-अलग स्तरों पर देखा जा
सकता है। इस दृष्टि से विचार करने पर भाषा प्रौद्योगिकी के अंतर्गत प्राकृतिक भाषा
संसाधन के चार स्तर किए जा सकते हैं-
3.1
पूर्व प्राकृतिक भाषा संसाधन (Pre-NLP)
इसमें
प्रोग्रामिंग, डाटाबेस प्रबंधन, फॉन्ट निर्माण और फॉन्ट परिवर्तन संबंधी कार्य
आदि आते हैं। फॉन्ट निर्माण अथवा फॉन्ट परिवर्तन NLP
नहीं है। NLP तो किसी पाठ के टंकित हो जाने बाद आरंभ होती
है।
3.2 प्राथमिक
प्राकृतिक भाषा संसाधन (Primary-NLP)
NLP के
अंतर्गत भाषा संबंधी ज्ञान को स्वन, स्वनिम, रूपिम, शब्द/पद, पदबंध, वाक्य और प्रोक्ति सभी भाषायी स्तरों पर
स्थापित करना होता है। यह कार्य मुख्यतः रूपविश्लेषण (Morph
Analysis) और रूपसर्जन (Morph Generation)
से आरंभ होता है। अतः शब्द स्तर तक के विश्लेषण और प्रजनन से जुड़े
टूल्स का निर्माण करना प्राथमिक NLP है। इसमें कंप्यूटेशनल
कोश निर्माण (Building Computational Lexicon), विराम-चिह्न अभिज्ञान एवं संसाधन (Punctuation Marks Recognition
and Processing), लिप्यंतरण प्रणाली (Transliteration
System), रूपविश्लेषण (Morph Analysis)
और रूपसर्जन (Morph Generation), वर्तनी जाँचक
निर्माण (Building Spell Checker),
दिनांक, समय और मुद्रा अभिज्ञान (Date, Time and
Currency Recognition) आदि कार्य आते हैं।
3.3 केंद्रीय
प्राकृतिक भाषा संसाधन (Central-NLP)
इसके अंतर्गत
शब्दभेद टैगिंग (Parts
of Speech Tagging), पदबंध चिह्नन (Phrase Marking), व्याकरण जाँचक निर्माण (Building Grammar Checker),
स्वचलित वाक्य प्रजनन (Automatic Sentence Generation) और
पद-विच्छेदन (Parsing) संबंधी कार्य आते हैं। प्राथमिक
NLP में विकसित किए गए सभी टूल्स इन प्रणालियों के विकास में किसी-न-किसी रूप
में प्रयोग में आते हैं। रूपविश्लेषक (Morph Analyser) को एक
टूल के रूप में देखा जा सकता है, किंतु भाषा व्यवहार संबंधी
किसी कार्य में केवल रूपविश्लेषक की कोई प्रत्यक्ष उपयोगिता नहीं है। इस टूल को
वर्तनी जाँचक, व्याकरण जाँचक, टैगर, पार्सर आदि किसी सॉफ्टवेयर में प्रयुक्त किया जा सकता है।
3.4 प्रगत
प्राकृतिक भाषा संसाधन (Advanced-NLP)
केंद्रीय NLP ही
मूल NLP है। इसमें बताए गए टूलों और सॉफ्टवेयरों द्वारा ही
भाषायी अनुप्रयोग क्षेत्रों, जैसे- मशीनी अनुवाद (Machine
Translation), ओ.सी.आर. (OCR), सूचना
प्रत्यानयन (Information Retrival) आदि संबंधी कार्य होते
हैं। किंतु इन सॉफ्टवेयरों के विकास में संदिग्धार्थकता (Ambiguity), नामपद अभिज्ञान (Name Entity
Recognition : NER), बहुशब्दीय अभिव्यक्ति (Multi-word
Expression- MWE),
प्रोक्ति संदर्भ (Discourse References) आदि संबंधी
चुनौतियाँ आती हैं। इसके अलावा अर्थ (Meaning) को मशीन में स्थापित
करना तथा भाषा और तर्क (Meaning and Logic) को एक साथ जोड़ना आदि आज भी
चुनौतिपूर्ण कार्य हैं। इन चुनौतियों को हल करने के लिए किया जाने वाला भाषा
संसाधन संबंधी कार्य प्रगत NLP है।
No comments:
Post a Comment