Total Pageviews

Friday, February 25, 2022

भाषा प्रौद्योगिकी : परिचय (Language Technology : An Introduction) (बी.ए.-1 2022)

भाषा प्रौद्योगिकी : परिचय (Language Technology : An Introduction)

1. भाषा प्रौद्योगिकी क्या है ? (What is Language Technology)

भाषा प्रौद्योगिकी वह ज्ञानानुशासन है जिसके अंतर्गत मानव भाषाओं के ज्ञान को विश्लेषित करके मशीन में इस प्रकार से स्थापित करने का प्रयास किया जाता है कि मशीन द्वारा भाषा संबंधी कार्य कराए जा सकें। यह एक अंतरानुशासनिक विषय है- जिसमें भाषा का पक्ष भाषाविज्ञान (Linguistics) द्वारा और प्रौद्योगिकी/मशीन का पक्ष कंप्यूटरविज्ञान’ (Computer Science) द्वारा संपन्न किया जाता है। इनमें से भाषाविज्ञान द्वारा किसी मानव भाषा का भाषावैज्ञानिक अध्ययन कर उसमें प्राप्त इकाइयों और नियमों की व्यवस्था को सूत्ररूप में प्रस्तुत किया जाता है। कंप्यूटरविज्ञान से कंप्यूटर के संबंध में केवल उतना ज्ञान अर्जित किया जाता है, जिससे भाषावैज्ञानिक अध्ययन से प्राप्त ज्ञान को कंप्यूटर में स्थापित किया जा सके।

सरल शब्दों में हम कह सकते हैं कि भाषा प्रौद्योगिकी के दो पक्षहैं-

§   पहले पक्ष में मानव भाषाओं का सैद्धांतिक अध्ययन-विश्लेषण किया जाता है  (= भाषाविज्ञान)

§   दूसरे पक्ष में सैद्धांतिक अध्ययन से प्राप्त ज्ञान को प्रोग्रामिंग भाषाओं और डाटाबेस के माध्यम से मशीन में इस प्रकार से स्थापित किया जाता है कि मशीन मानव भाषा संबंधी कार्यों को संपन्न कर सके। (= कंप्यूटरविज्ञान)

यहाँ ध्यान रखने वाली बात है कि प्रोग्रामिंग भाषाओं में मानव भाषाओं के सामान्य नियम नहीं दिए जा सकते। इसके लिए उन्हें तार्किक रचनाओं में ढालना पड़ता है। अतः दो अनुशासनों के योग के रूप में भाषा प्रौद्योगिकी की स्थिति इस प्रकार दर्शा सकते हैं-

भाषा प्रौद्योगिकी =  भाषाविज्ञान + प्रौद्योगिकी (कंप्यूटर और कंप्यूटर आधारित मशीनें)

विश्लेषण और अनुप्रयोग की प्रक्रिया की दृष्टि से इसे निम्नलिखित चित्र में देख सकते हैं-


2. भाषा प्रौद्योगिकी और प्राकृतिक भाषा संसाधन (LT and NLP) 

मानव भाषाओं के ज्ञान को तार्किक नियमों में ढालते हुए मशीन में संसाधित करने की प्रक्रिया प्राकृतिक भाषा संसाधन है। अर्थात प्राकृतिक भाषा संसाधन वह प्रक्रिया है जिसके माध्यम से मानव भाषाओं के ज्ञान को मशीन में इस प्रकार से स्थापित किया जाता है कि उसके द्वारा मानव भाषाओं से संबंधित कार्य कराए जा सकें। अतः भाषा प्रौद्योगिकी और प्राकृतिक भाषा संसाधन दोनों का लक्ष्य एक ही है। दोनों में अंतर यह है कि भाषा प्रौद्योगिकी एक ज्ञानानुशासन (विषय) है, जबकि प्राकृतिक भाषा संसाधन  एक प्रक्रिया है। अतः दोनों को एक साथ रखते हुए कहा जा सकता है कि भाषा प्रौद्योगिकी एक ज्ञानानुशासन (विषय) है, जिसमें प्राकृतिक भाषा संसाधन का कार्य किया जाता है और उसका अध्ययन-अध्यापन किया जाता है।

अतः कह सकते हैं-

कथन-01 : भाषा प्रौद्योगिकी एक अंतरानुशासनिक ज्ञानानुशासन है।

कथन-02 : प्राकृतिक भाषा संसाधन एक प्रक्रिया या ज्ञानक्षेत्र है।

= प्राकृतिक भाषा संसाधन वह प्रक्रिया या ज्ञानक्षेत्र है जिससे संबंधित कार्य भाषा प्रौद्योगिकी में किया जाता है।

उपर्युक्त चित्र के माध्यम से ही इसे निम्नलिखित प्रकार से दर्शाया जा सकता है-

3. भाषा प्रौद्योगिकी और प्राकृतिक भाषा संसाधन संबंधी विविध पक्ष

3.1 प्राकृतिक भाषा संसाधन : प्रकार

§  पाठ संसाधन (Text Processing)

भाषा के लिखित रूप के संसाधन से संबंधित।

§  वाक् संसाधन (Speech Processing)

भाषा के वाचिक रूप के संसाधन से संबंधित।

3.2 प्राकृतिक भाषा संसाधन :स्तर

§  शब्द संसाधन (Word-processing)

§  वाक्य संसाधन (Sentence Processing)

§  पाठ संसाधन (Text Processing)

3.3 प्राकृतिक भाषा संसाधन : उपागम

§   नियम आधारित (Rule Based)

भाषावैज्ञानिक/व्याकरणिक नियम + शब्दकोश

§   कार्पस आधारित (Corpus Based)

सांख्यिकीय नियम + कार्पस

§   संकर (Hybrid)-

(क) नियम + सांख्यिकी   (ख) सांख्यिकी + नियम

3.4 प्राकृतिक भाषा संसाधन : दिशाएँ

§  विश्लेषण (Analysis)

बड़ी भाषिक इकाई का इनपुट मिलने पर उसमें लगी छोटी इकाइयों और उनकी व्यवस्था प्राप्त करना।

§  प्रजनन (Generation)

छोटी-छोटी भाषिक इकाई को जोड़कर बड़ी भाषिक इकाई का निर्माण करना।

4. भाषा प्रौद्योगिकी का मशीनी पक्ष

हम जानते हैं कि कंप्यूटर या मशीन विद्युत के ऑन और ऑफ द्वारा संचालित होती है, जिसे हम अपनी सुविधा के लिए ‘1’ और ‘0’ से प्रदर्शित करते हैं और इनके संयोजनों (combinations) से निर्मित भाषा को द्विआधारी भाषा (बाइनरी भाषा) कहते हैं। मशीन केवल इसी भाषा में दिए गए निर्देशों को समझने और संसाधित करने में सक्षम होती है। इस भाषा में आदेश देने के लिए संयोजित कोड इस प्रकार दिखाई देते हैं- 00100101, 10101110 आदि। शून्य और एक के ये दो संयोजन हैं, जिनके माध्यम से मशीन को दो बातें बताई जा सकती हैं। एक पूरे कंप्यूटर को संचालित करने के लिए ऐसे हजारों-लाखों कोड दिए जाते हैं। स्पष्ट है कि किसी व्यक्ति द्वारा ऐसे कोडों को याद रख पाना संभव नहीं है। इसीलिए प्रोग्रामिंग भाषाओं का विकास किया गया। अतः भाषा प्रौद्योगिकी के शोधकर्ता को किसी मानव भाषा के ज्ञान को मशीन में स्थापित करने के लिए प्रोग्रामिंग भाषा का ज्ञान आवश्यक है। इसी प्रकार भाषा की आधारभूत इकाइयाँ हैं- शब्द और वाक्य। इनका विशाल संचय शब्दकोश और कार्पस में किया जाता है। कंप्यूटर में इस प्रकार का संरचित संचय डाटाबेस के माध्यम से किया जाता है। अतः भाषा प्रौद्योगिकी के शोधकर्ता को किसी-न-किसी डाटाबेस प्रबंधन प्रणाली का भी ज्ञान होना चाहिए।

इन्हें बिंदु रूप में इस प्रकार से दर्शा सकते हैं-

§  डाटाबेस + प्रोग्रामिंग

§  प्रोग्राम की प्रक्रिया

इसमें एल्गोरिद्मफ्लोचार्टकथनऑपरेटरचर/अचरभाषा संसाधन संबंधी मेथड और प्रक्रियाएँ सब आ जाते हैं।

5. भाषा प्रौद्योगिकी के अनुप्रयोग क्षेत्र

इसके अंतर्गत वे क्षेत्र आते हैं, जिनमें भाषा प्रौद्योगिकी संबंधी ज्ञान का प्रयोग करते हुए विविध प्रकार की मशीनी प्रणालियों का विकास किया जाता है। ऐसे कुछ प्रमुख क्षेत्र निम्नलिखित हैं-

§  मशीनी अनुवाद (Machine Translation)

§  पाठ से वाक् और वाक् से पाठ  (TTS & STT)

§  ओ.सी.आर. (OCR)

§  संगणकीय कोश (Computational lexicon)

§  लिप्यंतरण (Transliteration)

§  सूचना प्रत्यानयन (Information Retrieval)

§  पाठ सारांशीकरण (Text Summarization)

§  संगणक साधित भाषा अधिगम/शिक्षण (CAL Learning/Teaching)

§  प्रश्न उत्तर प्रणालियाँ (Question Answering Systems)

§  कृत्रिम बुद्धि (Artificial Intelligence)


No comments:

Post a Comment