......................................................................................................................................................
इकाई - 4 भाषा
प्रौद्योगिकी : विविध अभिगम
......................................................................................................................................................
4.1 नियम-आधारित
अभिगम
शब्दकोश + व्याकरणिक नियम
(सूत्र रूप में)
मशीनी
अनुवाद के संदर्भ में देखें –
नियम
आधारित प्रणाली (Rule based Systems) :- इस प्रकार की प्रणालियों के विकास में व्याकरणिक नियमों को
प्रमुखता दी जाती है। अर्थात् इन प्रणालियों में स्रोत भाषा और लक्ष्य भाषा के
व्याकरणों को संग्रहीत कर दिया जाता है। इनके साथ-साथ डाटाबेस के रूप में दोनों
भाषाओं के शब्दकोश (lexicon)
को रखा जाता है। इसके बाद आवश्यकतानुसार रूपवैज्ञानिक विश्लेषक आदि का प्रयोग किया
जाता है। इस प्रकार की मशीनी अनुवाद प्रणालियों के विकास में मुख्यत: तीन विधियों
का प्रयोग किया जाता है :
(क) प्रत्यक्ष
विधि (Direct Method) :- इस विधि को शब्दकोश आधारित विधि भी कहा गया है। इस विधि के
प्रयोगकर्ताओं का यह मानना था कि स्रोत भाषा के शब्दों का लक्ष्य भाषा के शब्दों
द्वारा प्रतिस्थापन ही अनुवाद है। इसलिए इन प्रणालियों में दोनों भाषाओं के
शब्दकोशों को शब्द-रचना तथा वाक्य-रचना के कुछ नियमों के साथ रख दिया जाता है।
समान संरचना वाली या एक भाषा परिवार की भाषाओं के बीच अनुवाद इन प्रणालियों के
माध्यम से कुछ हद तक किया जा सक्ता है किंतु असमान संरचना या अलग-अल्ग भाषा परिवारों की भाषाओं के बीच
अनुवाद के लिए इस विधि से विकसित प्रणालियाँ उपयुक्त नहीं हैं।
(ख)
अंतरण विधि (Transfer Method) :- इस विधि को कृष्ण कुमार गोस्वामी (157) ने ‘परोक्ष विधि (indirect method)’ कहा है। इस विधि में
व्याकरणिक नियमों को अधिक महत्व दिया जाता है। इसमें स्रोत पाठ के प्रत्येक वाक्य
का सर्वप्रथम व्याकरणिक विश्लेषण किया जाता है। इसके पश्चात् प्राप्त वाक्य संरचना
को लक्ष्य भाषा की वाक्य संरचना में अंतरित कर दिया जाता है। इसके उपरांत शब्दों
का प्रतिस्थापन अंतरण से प्राप्त नई वाक्य रचना में कर दिया जाता है। इस प्रकार से
इस विधि के तीन चरण प्राप्त होते हैं : विश्लेषण, अंतरण एवं संश्लेषण। इस विधि द्वारा जर्मनी की ‘SUSY’ और फ्रांस की ‘GETA’ प्रणालियों का विकास किया गया
है।
(ग) अंतरभाषा
विधि (Interlingua Method) :- इस विधि में अनुवाद के लिए चुनी गई दोनों भाषाओं के बीच अर्थ
की दृष्टि से एक ‘मध्यवर्ती
भाषा’ (intermediate language) का
निर्माण किया जाता है जिसे ‘अंतरभाषा’ (interlingua) कहते हैं। यह भाषा स्रोत और लक्ष्य दोनों भाषाओं से निरपेक्ष होती है। इस
विधि प्रयोग करते हुए अनुवाद प्रणालियों का विकास बहुत ही जटिल कार्य है।
(घ) प्रतिचित्रण
या क्रमिक व्याकरण विधि (Mapping or
Sequential Grammar Method) :- कुछ विद्वानों
ने इस विधि पर भी काम करने का प्रयास किया है। इसमें बड़ी-बड़ी वाक्य संरचनाओं को
बनाकर संग्रहीत कर दिया जाता है। यदि स्रोत पाठ के वाक्य की संरचना तैयार किए हुए
डाटाबेस से पूर्णत: या आंशिक रूप से मेल खाती है तो उसी के अनुसार क्रमश: पूर्ण
प्रतिचित्रण (complete mapping) या
प्रभाग प्रतिचित्रण (subset mapping) का कार्य किया जाता है।
......................................................................................................................................................
4.2 सांख्यिकीय अभिगम
कार्पस
|
सांख्यिकीय
नियम/
मशीनी अधिगम
नियम
|
मशीनी
अनुवाद के संदर्भ में-
सांख्यिकी
आधारित प्रणाली (Statics based System) :-
इस प्रकार की प्रणालियों में
द्विभाषिक कार्पोरा पर आधारित सांख्यिकीय विधियों का प्रयोग किया जाता है। इसमें
भाषाई नियमों और शब्दकोशों की आवश्यकता नहीं होती। इनकी जगह सांख्यिकीय संरचनाओं
को निर्मित कर विरचन (decomposition) और अंतरापृष्ठ (interface) का प्रयोग किया जाता है।
इसमें एच. एम. एम. जैसे मॉडलों और पद्धतियों का प्रयोग किया जाता है।
कार्पस आधारित प्राकृतिक भाषा संसाधन (Corpus-based NLP) के क्षेत्र में मशीनी अधिगम (ML) के लिए अधिकांंशतः गहन अधिगम (Deep Learning) के Recurrent Neural Network (RNN) मॉडल का प्रयोग किया जाता है।
कार्पस आधारित प्राकृतिक भाषा संसाधन (Corpus-based NLP) के क्षेत्र में मशीनी अधिगम (ML) के लिए अधिकांंशतः गहन अधिगम (Deep Learning) के Recurrent Neural Network (RNN) मॉडल का प्रयोग किया जाता है।
......................................................................................................................................................
4.3 उदाहरण-आधारित
अभिगम
मशीनी
अनुवाद के संदर्भ में : उदाहरण आधारित प्रणाली (Example –based Systems) :- इस विधि को 1984 में Makoto
Nagao द्वारा प्रस्तावित किया गया। इसमें द्विभाषिक कार्पोरा का
उपयोग रन टाइम में मुख्य ज्ञान आधार के रूप में किया जाता है। अत: मशीन में
सर्वप्रथम समानांतर कार्पोरा तैयार किया जाता है और उसी के आधार पर नियम दिए जाते
हैं। इसके लिए कृत्रिम बुद्धि (artificial intelligence) और
मशीनी अधिगम (machine learning) विधियों का उपयोग किया जाता
है। इनके विकास में प्रयुक्त होने वाले कार्पस अभी बहुत कम ही निर्मित किए गए हैं; जैसे : कानाडियन हैन्सार्ड कार्पस (Canadian Hansard Corpus).
......................................................................................................................................................
4.4 संकर अभिगम (Hybrid Approach)
यह
मशीनी अनुवाद प्रणालियों के विकास की आधुनिक तकनीकी है। इसमें सांख्यिकीय और
नियम-आधारित अनुवाद कम्पनियों (जैसे : Asia
Online और Systran) आदि का कहना है कि उनके
द्वारा संकर विधि का प्रयोग किया जा रहा है।
संकर विधि से विकसित प्रणालियाँ दो प्रकार से कार्य करती हैं :
(क) सांख्यिकी
द्वारा पश्चसंसाधित नियम (Rule
post-processed by Statics) :- इस
प्रकार की प्रणालियों में अनुवाद का कार्य नियम आधारित इंजन द्वारा किया जाता है।
सांख्यिकी का प्रयोग इस इंजन से प्राप्त आउटपुट को सुधारने या ठीक करने के लिए
किया जाता है।
(ख) नियमों
द्वारा निर्देशित सांख्यिकी (Statics
Guided by Rules) :- इसमें
नियमों का प्रयोग डाटा को पूर्वसंसाधित करने के लिए किया जाता है जिससे सांख्यिकी
इंजन को अनुवाद कार्य करने में सरलता हो जाती है। इसके पश्चात् नियमों का पुन:
प्रयोग सांख्यिकी के नियमों के आउटपुट के सामान्यीकरण (normalization) में किया जाता है। इस विधि का
प्रयोग करते हुए विकसित की गई मशीनी अनुवाद प्रणालियाँ अधिक शक्तिशाली एवं लचीली
होती हैं और अच्छे परिणाम देती हैं।
No comments:
Post a Comment