भाषा प्रौद्योगिकी : परिचय (Language Technology : An Introduction)
1. भाषा प्रौद्योगिकी क्या है ? (What is Language Technology)
भाषा प्रौद्योगिकी वह ज्ञानानुशासन है जिसके अंतर्गत मानव भाषाओं के ज्ञान को
विश्लेषित करके मशीन में इस प्रकार से स्थापित करने का प्रयास किया जाता है कि
मशीन द्वारा भाषा संबंधी कार्य कराए जा सकें। यह एक अंतरानुशासनिक विषय है- जिसमें
भाषा का पक्ष ‘भाषाविज्ञान’ (Linguistics) द्वारा और ‘प्रौद्योगिकी/मशीन’ का पक्ष ‘कंप्यूटरविज्ञान’ (Computer
Science) द्वारा संपन्न किया जाता है। इनमें से भाषाविज्ञान द्वारा
किसी मानव भाषा का भाषावैज्ञानिक अध्ययन कर उसमें प्राप्त ‘इकाइयों
और नियमों की व्यवस्था’ को सूत्ररूप में प्रस्तुत किया जाता
है। ‘कंप्यूटरविज्ञान’ से कंप्यूटर के
संबंध में केवल उतना ज्ञान अर्जित किया जाता है, जिससे भाषावैज्ञानिक
अध्ययन से प्राप्त ज्ञान को कंप्यूटर में स्थापित किया जा सके।
सरल शब्दों में हम कह सकते हैं कि भाषा प्रौद्योगिकी के दो पक्षहैं-
§
पहले पक्ष में
मानव भाषाओं का सैद्धांतिक अध्ययन-विश्लेषण किया जाता है (= भाषाविज्ञान)
§
दूसरे पक्ष में
सैद्धांतिक अध्ययन से प्राप्त ज्ञान को ‘प्रोग्रामिंग भाषाओं और डाटाबेस’ के माध्यम से मशीन
में इस प्रकार से स्थापित किया जाता है कि मशीन मानव भाषा संबंधी कार्यों को संपन्न
कर सके। (= कंप्यूटरविज्ञान)
यहाँ ध्यान रखने वाली बात है कि प्रोग्रामिंग भाषाओं में मानव भाषाओं के
सामान्य नियम नहीं दिए जा सकते। इसके लिए उन्हें तार्किक रचनाओं में ढालना
पड़ता है। अतः दो अनुशासनों के योग के रूप में भाषा प्रौद्योगिकी की स्थिति इस
प्रकार दर्शा सकते हैं-
भाषा प्रौद्योगिकी = भाषाविज्ञान + प्रौद्योगिकी (कंप्यूटर और कंप्यूटर
आधारित मशीनें)
विश्लेषण और अनुप्रयोग की प्रक्रिया की दृष्टि से इसे निम्नलिखित चित्र में
देख सकते हैं-
2. भाषा प्रौद्योगिकी और प्राकृतिक भाषा संसाधन (LT and NLP)
मानव भाषाओं के ज्ञान
को तार्किक नियमों में ढालते हुए मशीन में संसाधित करने की प्रक्रिया प्राकृतिक
भाषा संसाधन है। अर्थात प्राकृतिक भाषा संसाधन वह प्रक्रिया है जिसके माध्यम से
मानव भाषाओं के ज्ञान को मशीन में इस प्रकार से स्थापित किया जाता है कि उसके द्वारा
मानव भाषाओं से संबंधित कार्य कराए जा सकें। अतः भाषा प्रौद्योगिकी और प्राकृतिक
भाषा संसाधन दोनों का लक्ष्य एक ही है। दोनों में अंतर यह है कि भाषा प्रौद्योगिकी
एक ज्ञानानुशासन (विषय) है, जबकि प्राकृतिक भाषा संसाधन
एक प्रक्रिया है। अतः दोनों को एक साथ रखते हुए कहा जा सकता है कि भाषा
प्रौद्योगिकी एक ज्ञानानुशासन (विषय) है, जिसमें प्राकृतिक
भाषा संसाधन का कार्य किया जाता है और उसका अध्ययन-अध्यापन किया जाता है।
अतः कह सकते हैं-
कथन-01 : भाषा प्रौद्योगिकी एक अंतरानुशासनिक ज्ञानानुशासन
है।
कथन-02 : प्राकृतिक भाषा संसाधन एक प्रक्रिया या
ज्ञानक्षेत्र है।
= प्राकृतिक भाषा संसाधन वह प्रक्रिया या ज्ञानक्षेत्र है
जिससे संबंधित कार्य भाषा प्रौद्योगिकी में किया जाता है।
उपर्युक्त चित्र के माध्यम से ही इसे निम्नलिखित प्रकार से
दर्शाया जा सकता है-
3. भाषा प्रौद्योगिकी और प्राकृतिक भाषा संसाधन संबंधी
विविध पक्ष
3.1 प्राकृतिक भाषा संसाधन : प्रकार
§
पाठ संसाधन (Text Processing)
भाषा के लिखित रूप के
संसाधन से संबंधित।
§
वाक् संसाधन (Speech Processing)
भाषा के वाचिक रूप के संसाधन से संबंधित।
3.2 प्राकृतिक भाषा संसाधन :स्तर
§ शब्द संसाधन (Word-processing)
§ वाक्य संसाधन (Sentence Processing)
§ पाठ संसाधन (Text Processing)
3.3 प्राकृतिक भाषा संसाधन : उपागम
§
नियम आधारित (Rule Based)
भाषावैज्ञानिक/व्याकरणिक नियम + शब्दकोश
§
कार्पस आधारित
(Corpus Based)
सांख्यिकीय नियम + कार्पस
§
संकर (Hybrid)-
(क) नियम + सांख्यिकी (ख) सांख्यिकी
+ नियम
3.4 प्राकृतिक भाषा संसाधन : दिशाएँ
§
विश्लेषण (Analysis)
बड़ी भाषिक इकाई का
इनपुट मिलने पर उसमें लगी छोटी इकाइयों और उनकी व्यवस्था प्राप्त करना।
§
प्रजनन (Generation)
छोटी-छोटी भाषिक इकाई को जोड़कर बड़ी भाषिक इकाई
का निर्माण करना।
4. भाषा प्रौद्योगिकी का मशीनी पक्ष
हम जानते हैं कि कंप्यूटर या मशीन विद्युत के ‘ऑन और ऑफ’ द्वारा संचालित होती है, जिसे हम अपनी सुविधा के लिए ‘1’ और ‘0’ से प्रदर्शित करते हैं और इनके संयोजनों (combinations) से निर्मित भाषा को ‘द्विआधारी भाषा’ (बाइनरी भाषा) कहते हैं। मशीन केवल इसी भाषा में दिए गए निर्देशों को
समझने और संसाधित करने में सक्षम होती है। इस भाषा में आदेश देने के लिए संयोजित
कोड इस प्रकार दिखाई देते हैं- 00100101, 10101110 आदि। शून्य और एक के ये दो संयोजन हैं, जिनके
माध्यम से मशीन को दो बातें बताई जा सकती हैं। एक पूरे कंप्यूटर को संचालित करने
के लिए ऐसे हजारों-लाखों कोड दिए जाते हैं। स्पष्ट है कि किसी व्यक्ति द्वारा ऐसे
कोडों को याद रख पाना संभव नहीं है। इसीलिए प्रोग्रामिंग भाषाओं का विकास
किया गया। अतः भाषा प्रौद्योगिकी के शोधकर्ता को किसी मानव भाषा के ज्ञान को मशीन
में स्थापित करने के लिए प्रोग्रामिंग भाषा का ज्ञान आवश्यक है। इसी प्रकार भाषा
की आधारभूत इकाइयाँ हैं- शब्द और वाक्य। इनका विशाल संचय शब्दकोश और कार्पस
में किया जाता है। कंप्यूटर में इस प्रकार का संरचित संचय डाटाबेस के
माध्यम से किया जाता है। अतः भाषा प्रौद्योगिकी के शोधकर्ता को किसी-न-किसी
डाटाबेस प्रबंधन प्रणाली का भी ज्ञान होना चाहिए।
इन्हें बिंदु रूप में इस प्रकार से दर्शा सकते हैं-
§ डाटाबेस + प्रोग्रामिंग
§ प्रोग्राम की प्रक्रिया
इसमें एल्गोरिद्म, फ्लोचार्ट, कथन, ऑपरेटर, चर/अचर, भाषा संसाधन संबंधी मेथड और प्रक्रियाएँ सब आ जाते हैं।
5. भाषा प्रौद्योगिकी के अनुप्रयोग क्षेत्र
इसके अंतर्गत वे क्षेत्र आते हैं, जिनमें भाषा प्रौद्योगिकी संबंधी ज्ञान का प्रयोग करते हुए विविध प्रकार
की मशीनी प्रणालियों का विकास किया जाता है। ऐसे कुछ प्रमुख क्षेत्र निम्नलिखित
हैं-
§ मशीनी अनुवाद (Machine Translation)
§ पाठ से वाक् और वाक् से पाठ (TTS & STT)
§ ओ.सी.आर. (OCR)
§ संगणकीय कोश (Computational lexicon)
§ लिप्यंतरण (Transliteration)
§ सूचना प्रत्यानयन (Information Retrieval)
§ पाठ सारांशीकरण (Text Summarization)
§ संगणक साधित भाषा अधिगम/शिक्षण (CAL
Learning/Teaching)
§ प्रश्न उत्तर प्रणालियाँ (Question Answering
Systems)
§ कृत्रिम बुद्धि (Artificial Intelligence)
namste sir, i am working as Assistant professor .hindi .i want to cntact you sir.please give me your e mail add
ReplyDelete