भाषा और भाषा प्रौद्योगिकी: कॉर्पस आधारित मशीनी अनुवाद (Corpus Based MT)

Tuesday, May 9, 2023

कॉर्पस आधारित मशीनी अनुवाद (Corpus Based MT)

कॉर्पस आधारित मशीनी अनुवाद (Corpus Based MT):

मशीनी अनुवाद की वह पद्धति जिसमें कार्पस और सांख्यिकीय या मशीनी अधिगम नियमों के संयोजन से अनुवाद का कार्य संपन्न किया जाता है, कार्पस आधारित मशीनी अनुवाद कहलाती है। इसे सूत्र रूप में निम्नलिखित प्रकार से दर्शा सकते हैं-

हिंदी :

कॉर्पस आधारित मशीनी अनुवाद = कार्पस + सांख्यिकीय/ मशीनी अधिगम नियम

English :

Corpus Based MT = Corpus + Statistical/Machine Learning Rules

नियम आधारित विधि में द्विभाषी शब्दकोश के अलावा भाषाओं के नियमों की खोज स्वयं मशीनी अनुवाद प्रणाली विकासकर्ता को करनी होती है, जो बहुत कठिन कार्य है। इस कारण कंप्यूटरवैज्ञानिकों द्वारा कार्पस आधारित पद्धति विकसित की गई।

§ कार्पस = लिखित/वाचिक या दोनों रूपों में भाषिक सामग्री का बहुत विशाल संग्रह।

§ कार्पस का बहुवचन ‘कार्पोरा’ ।

§ मशीनी अनुवाद में समानांतर कार्पस आवश्यक।

कार्पस के साथ लगने वाले नियमों के स्वरूप के आधार पर इसकी कुछ विधियाँ इस प्रकार हैं-

(1) सांख्यिकीय आधारित विधि (Statistical-based Method): इस पद्धति में द्विभाषिक पाठ कार्पोरा (bilingual text corpora) के आधार के सांख्यिकीय नियमों का प्रयोग किया जाता है। वैसे तो इसका विचार Warren Weaver द्वारा 1949 में ही प्रस्तुत कर दिया गया था, किंतु वास्तविक रूप में यह 1980 के दशक में ही सामने आया। आई.बी.एम. के Thomas J. Watson Research Center के शोधकर्ताओं ने इस क्षेत्र में महत्वपूर्ण कार्य किए हैं।

सांख्यिकी आधारित मशीनी अनुवाद का विचार ‘सूचना सिद्धांत’ से आया है। इसमें किसी भी पाठ का ‘संभाव्यता वितरण’ के आधार पर अनुवाद किया जाता है। इसे सूत्ररूप में इस प्रकार व्यक्त किया जा सकता है-

(स्रोत- विकिपेडिया)

इसमें स्रोत भाषा के पाठ f के लक्ष्य भाषा के पाठ e में अनूदित होने की संभाव्यता को दर्शाया गया है। बाद में इसमें अनेक सुधार किए गए हैं और नए मॉडल भी विकसित हुए हैं,जैसे- अनुवाद मॉडल (translation model) आदि।

(2) उदाहरण आधारित विधि (Example-based Method): इस मशीनी अनुवाद पद्धति को संक्षेप में EBMT (Example-based machine translation) कहते हैं। इसमें द्विभाषिक पाठ कार्पस का प्रयोग मुख्य ज्ञानआधार (knowledge base) के रूप में किया जाता है। इसे सादृश्य आधारित अनुवाद (Translation by analogy) के रूप में भी समझा जा सकता है। इसमें गहन भाषावैज्ञानिक विश्लेषण संबंधी कार्य नहीं किया जाता। इस पद्धति का सबसे पहले 1984 में Makoto Nagao द्वारा प्रस्तावित किया गया।

सांख्यिकी आधारित मशीनी अनुवाद जहाँ शब्दों की आवृत्ति (word frequency), शब्द संयोजन (word combination) और उनकी संभाव्यता पर आधारित होता है, वहीं उदाहरण आधारित मशीनी अनुवाद पदबंधों के संयोजन (combination of phrases) पर आधारित होता है। अतः इसके लिए आधारभूत इकाई ‘अर्थपूर्ण शब्दक्रम’ (meaningful sequence of words) है, जो पदबंध या किसी अन्य पाठखंड के रूप में हो सकती है।

Total Pageviews

विषय सूची

Tuesday, May 9, 2023

कॉर्पस आधारित मशीनी अनुवाद (Corpus Based MT)

No comments:

Post a Comment