भाषा और भाषा प्रौद्योगिकी: भाषा प्रौद्योगिकी : परिप्रेक्ष्य और अभिगम-4

Monday, October 22, 2018

भाषा प्रौद्योगिकी : परिप्रेक्ष्य और अभिगम-4

......................................................................................................................................................

इकाई - 4 भाषा प्रौद्योगिकी : विविध अभिगम

......................................................................................................................................................

4.1 नियम-आधारित अभिगम

शब्दकोश + व्याकरणिक नियम (सूत्र रूप में)

मशीनी अनुवाद के संदर्भ में देखें –

नियम आधारित प्रणाली (Rule based Systems) :- इस प्रकार की प्रणालियों के विकास में व्याकरणिक नियमों को प्रमुखता दी जाती है। अर्थात् इन प्रणालियों में स्रोत भाषा और लक्ष्य भाषा के व्याकरणों को संग्रहीत कर दिया जाता है। इनके साथ-साथ डाटाबेस के रूप में दोनों भाषाओं के शब्दकोश (lexicon) को रखा जाता है। इसके बाद आवश्यकतानुसार रूपवैज्ञानिक विश्लेषक आदि का प्रयोग किया जाता है। इस प्रकार की मशीनी अनुवाद प्रणालियों के विकास में मुख्यत: तीन विधियों का प्रयोग किया जाता है :

(क) प्रत्यक्ष विधि (Direct Method) :- इस विधि को शब्दकोश आधारित विधि भी कहा गया है। इस विधि के प्रयोगकर्ताओं का यह मानना था कि स्रोत भाषा के शब्दों का लक्ष्य भाषा के शब्दों द्वारा प्रतिस्थापन ही अनुवाद है। इसलिए इन प्रणालियों में दोनों भाषाओं के शब्दकोशों को शब्द-रचना तथा वाक्य-रचना के कुछ नियमों के साथ रख दिया जाता है। समान संरचना वाली या एक भाषा परिवार की भाषाओं के बीच अनुवाद इन प्रणालियों के माध्यम से कुछ हद तक किया जा सक्ता है किंतु असमान संरचना या अलग-अल्ग भाषा परिवारों की भाषाओं के बीच अनुवाद के लिए इस विधि से विकसित प्रणालियाँ उपयुक्त नहीं हैं।

(ख) अंतरण विधि (Transfer Method) :- इस विधि को कृष्ण कुमार गोस्वामी (157) ने ‘परोक्ष विधि (indirect method)’ कहा है। इस विधि में व्याकरणिक नियमों को अधिक महत्व दिया जाता है। इसमें स्रोत पाठ के प्रत्येक वाक्य का सर्वप्रथम व्याकरणिक विश्लेषण किया जाता है। इसके पश्चात् प्राप्त वाक्य संरचना को लक्ष्य भाषा की वाक्य संरचना में अंतरित कर दिया जाता है। इसके उपरांत शब्दों का प्रतिस्थापन अंतरण से प्राप्त नई वाक्य रचना में कर दिया जाता है। इस प्रकार से इस विधि के तीन चरण प्राप्त होते हैं : विश्लेषण, अंतरण एवं संश्लेषण। इस विधि द्वारा जर्मनी की ‘SUSY’ और फ्रांस की ‘GETA’ प्रणालियों का विकास किया गया है।

(ग) अंतरभाषा विधि (Interlingua Method) :- इस विधि में अनुवाद के लिए चुनी गई दोनों भाषाओं के बीच अर्थ की दृष्टि से एक ‘मध्यवर्ती भाषा’ (intermediate language) का निर्माण किया जाता है जिसे ‘अंतरभाषा’ (interlingua) कहते हैं। यह भाषा स्रोत और लक्ष्य दोनों भाषाओं से निरपेक्ष होती है। इस विधि प्रयोग करते हुए अनुवाद प्रणालियों का विकास बहुत ही जटिल कार्य है।

(घ) प्रतिचित्रण या क्रमिक व्याकरण विधि (Mapping or Sequential Grammar Method) :- कुछ विद्वानों ने इस विधि पर भी काम करने का प्रयास किया है। इसमें बड़ी-बड़ी वाक्य संरचनाओं को बनाकर संग्रहीत कर दिया जाता है। यदि स्रोत पाठ के वाक्य की संरचना तैयार किए हुए डाटाबेस से पूर्णत: या आंशिक रूप से मेल खाती है तो उसी के अनुसार क्रमश: पूर्ण प्रतिचित्रण (complete mapping) या प्रभाग प्रतिचित्रण (subset mapping) का कार्य किया जाता है।

......................................................................................................................................................

4.2 सांख्यिकीय अभिगम

कार्पस

सांख्यिकीय नियम/

मशीनी अधिगम नियम

कार्पस + सांख्यिकीय नियम/मशीनी अधिगम नियम

मशीनी अनुवाद के संदर्भ में-

सांख्यिकी आधारित प्रणाली (Statics based System) :- इस प्रकार की प्रणालियों में द्विभाषिक कार्पोरा पर आधारित सांख्यिकीय विधियों का प्रयोग किया जाता है। इसमें भाषाई नियमों और शब्दकोशों की आवश्यकता नहीं होती। इनकी जगह सांख्यिकीय संरचनाओं को निर्मित कर विरचन (decomposition) और अंतरापृष्ठ (interface) का प्रयोग किया जाता है। इसमें एच. एम. एम. जैसे मॉडलों और पद्धतियों का प्रयोग किया जाता है।
कार्पस आधारित प्राकृतिक भाषा संसाधन (Corpus-based NLP) के क्षेत्र में मशीनी अधिगम (ML) के लिए अधिकांंशतः गहन अधिगम (Deep Learning) के Recurrent Neural Network (RNN) मॉडल का प्रयोग किया जाता है।

......................................................................................................................................................

4.3 उदाहरण-आधारित अभिगम

मशीनी अनुवाद के संदर्भ में : उदाहरण आधारित प्रणाली (Example –based Systems) :- इस विधि को 1984 में Makoto Nagao द्वारा प्रस्तावित किया गया। इसमें द्विभाषिक कार्पोरा का उपयोग रन टाइम में मुख्य ज्ञान आधार के रूप में किया जाता है। अत: मशीन में सर्वप्रथम समानांतर कार्पोरा तैयार किया जाता है और उसी के आधार पर नियम दिए जाते हैं। इसके लिए कृत्रिम बुद्धि (artificial intelligence) और मशीनी अधिगम (machine learning) विधियों का उपयोग किया जाता है। इनके विकास में प्रयुक्त होने वाले कार्पस अभी बहुत कम ही निर्मित किए गए हैं; जैसे : कानाडियन हैन्सार्ड कार्पस (Canadian Hansard Corpus).

......................................................................................................................................................

4.4 संकर अभिगम (Hybrid Approach)

यह मशीनी अनुवाद प्रणालियों के विकास की आधुनिक तकनीकी है। इसमें सांख्यिकीय और नियम-आधारित अनुवाद कम्पनियों (जैसे : Asia Online और Systran) आदि का कहना है कि उनके द्वारा संकर विधि का प्रयोग किया जा रहा है। संकर विधि से विकसित प्रणालियाँ दो प्रकार से कार्य करती हैं :

(क) सांख्यिकी द्वारा पश्चसंसाधित नियम (Rule post-processed by Statics) :- इस प्रकार की प्रणालियों में अनुवाद का कार्य नियम आधारित इंजन द्वारा किया जाता है। सांख्यिकी का प्रयोग इस इंजन से प्राप्त आउटपुट को सुधारने या ठीक करने के लिए किया जाता है।

(ख) नियमों द्वारा निर्देशित सांख्यिकी (Statics Guided by Rules) :- इसमें नियमों का प्रयोग डाटा को पूर्वसंसाधित करने के लिए किया जाता है जिससे सांख्यिकी इंजन को अनुवाद कार्य करने में सरलता हो जाती है। इसके पश्चात् नियमों का पुन: प्रयोग सांख्यिकी के नियमों के आउटपुट के सामान्यीकरण (normalization) में किया जाता है। इस विधि का प्रयोग करते हुए विकसित की गई मशीनी अनुवाद प्रणालियाँ अधिक शक्तिशाली एवं लचीली होती हैं और अच्छे परिणाम देती हैं।

Total Pageviews

विषय सूची

Monday, October 22, 2018

भाषा प्रौद्योगिकी : परिप्रेक्ष्य और अभिगम-4

No comments:

Post a Comment