कॉर्पस आधारित मशीनी अनुवाद (Corpus Based MT):
मशीनी अनुवाद की
वह पद्धति जिसमें कार्पस और सांख्यिकीय या मशीनी अधिगम नियमों के संयोजन से अनुवाद
का कार्य संपन्न किया जाता है, कार्पस आधारित मशीनी अनुवाद कहलाती है। इसे सूत्र रूप में निम्नलिखित
प्रकार से दर्शा सकते हैं-
हिंदी :
कॉर्पस आधारित मशीनी
अनुवाद = कार्पस + सांख्यिकीय/
मशीनी अधिगम नियम
English :
Corpus Based MT = Corpus + Statistical/Machine Learning
Rules
नियम आधारित
विधि में द्विभाषी शब्दकोश के अलावा भाषाओं के नियमों की खोज स्वयं मशीनी अनुवाद
प्रणाली विकासकर्ता को करनी होती है, जो बहुत कठिन कार्य है। इस कारण
कंप्यूटरवैज्ञानिकों द्वारा कार्पस आधारित पद्धति विकसित की गई।
§ कार्पस =
लिखित/वाचिक या दोनों रूपों में भाषिक सामग्री का बहुत विशाल संग्रह।
§ कार्पस का
बहुवचन ‘कार्पोरा’
।
§ मशीनी अनुवाद
में समानांतर कार्पस आवश्यक।
कार्पस के साथ
लगने वाले नियमों के स्वरूप के आधार पर इसकी कुछ विधियाँ इस प्रकार हैं-
(1) सांख्यिकीय
आधारित विधि (Statistical-based Method): इस पद्धति में द्विभाषिक पाठ कार्पोरा (bilingual text corpora) के
आधार के सांख्यिकीय नियमों का प्रयोग किया जाता है। वैसे तो इसका विचार Warren Weaver द्वारा 1949 में ही
प्रस्तुत कर दिया गया था, किंतु वास्तविक रूप में यह 1980 के
दशक में ही सामने आया। आई.बी.एम. के Thomas J. Watson Research Center के शोधकर्ताओं ने इस क्षेत्र में महत्वपूर्ण कार्य किए हैं।
सांख्यिकी
आधारित मशीनी अनुवाद का विचार ‘सूचना सिद्धांत’ से आया है। इसमें किसी
भी पाठ का ‘संभाव्यता वितरण’ के आधार
पर अनुवाद किया जाता है। इसे सूत्ररूप में इस प्रकार व्यक्त किया जा सकता है-
(स्रोत- विकिपेडिया)
इसमें स्रोत
भाषा के पाठ f के लक्ष्य भाषा के पाठ e में अनूदित होने की
संभाव्यता को दर्शाया गया है। बाद में इसमें अनेक सुधार किए गए हैं और नए मॉडल भी
विकसित हुए हैं,जैसे- अनुवाद मॉडल (translation
model) आदि।
(2) उदाहरण
आधारित विधि (Example-based Method): इस मशीनी
अनुवाद पद्धति को संक्षेप में EBMT (Example-based machine translation)
कहते हैं। इसमें द्विभाषिक पाठ कार्पस का प्रयोग मुख्य ज्ञानआधार (knowledge
base) के रूप में किया जाता है। इसे सादृश्य आधारित अनुवाद (Translation
by analogy) के रूप में भी समझा जा सकता है। इसमें गहन
भाषावैज्ञानिक विश्लेषण संबंधी कार्य नहीं किया जाता। इस पद्धति का सबसे पहले 1984
में Makoto Nagao
द्वारा प्रस्तावित किया गया।
सांख्यिकी
आधारित मशीनी अनुवाद जहाँ शब्दों की आवृत्ति (word frequency), शब्द संयोजन (word
combination) और उनकी संभाव्यता पर आधारित होता है, वहीं उदाहरण आधारित मशीनी अनुवाद पदबंधों के संयोजन (combination
of phrases) पर आधारित होता है। अतः इसके लिए आधारभूत इकाई ‘अर्थपूर्ण शब्दक्रम’ (meaningful sequence of
words) है, जो पदबंध या किसी अन्य पाठखंड के
रूप में हो सकती है।
No comments:
Post a Comment