Total Pageviews

Friday, November 11, 2016

हिंदी में बहुशब्दीय अभिव्यक्तियाँ और उनका शब्द-भेद वर्गीकरण (Multi-word Expressions in Hindi and their PoS Classification)

डॉ. धनजी प्रसाद        
बहुशब्दीय अभिव्यक्ति (Multi-word Expression) एक नवीन अवधारणा है जिसका विकास प्राकृतिक भाषा संसाधन (NLP) की पृष्ठभूमि में हुआ है। पिछले पाँच दशकों में कम्प्यूटर में प्राकृतिक भाषाओं के अनुप्रयोगात्मक क्षेत्रों से संबंधित प्रणालियों  (systems) के विकास के लिए अंतरराष्ट्रीय स्तर पर अनेक कार्य हुए हैं। प्राकृतिक भाषा संसाधन में वाक्यों का संसाधन करने की एक सामान्य विधि यह है कि प्रणाली द्वारा उस वाक्य में आए हुए शब्दों के शब्द-वर्ग (Parts of Speech) और व्याकरणिक कोटियों (Grammatical Categories) की टैगिंग की जाती है और अनुप्रयोग के आधार पर आगे की क्रिया की जाती है। जैसे- मशीनी अनुवाद में भाषाई अंतरण, पाठ सारांशीकरण में सारांश बनाना, डायलॉग सिस्टम में बात को समझना आदि। शब्द स्तर तक पहुँचने का कारण यह होता है कि हम यह मानकर चलते हैं कि प्रत्येक शब्द एक अर्थ विशेष का प्रतिनिधित्व करता है।
 किंतु यदि ऐसी स्थिति उत्पन्न हो जाए कि एक से अधिक शब्द एक साथ रहते हुए एक ही अर्थ का प्रतिनिधित्व करते हों और अलग-अलग आने पर अलग-अलग अर्थों का, तो ऐसे शब्द-युग्मों की पहचान आवश्यक हो जाती है। नहीं तो यदि किसी प्रणाली द्वारा उन्हें अलग-अलग समझ लिया जाता है तो आगे जो भी प्रक्रिया होगी उसमें शब्दों के मेल से प्राप्त होने वाले मूल अर्थ को नहीं लिया जा सकेगा। अत: इसके बाद जो भी परिणाम प्राप्त होगा वह वास्तविक परिणाम से भिन्न होगा। जैसे, हिंदी में चूना लगाना’, दाना-पानी’, श्री गणेश’, चाय -वाय आदि में प्रत्येक शब्द युग्म द्वारा प्राप्त अर्थ उसमें आए शब्दों के अलग-अलग अर्थों को जोड़कर बनाए गए अर्थ से भिन्न है। ऐसी ही अभिव्यक्तियों को बहुशब्दीय अभिव्यक्ति (Multi-word Expression) कहा गया है। प्राकृतिक भाषा संसाधन प्रणालियों में स्वचलित रूप से इनकी पहचान आवश्यक है।
बहुशब्दीय अभिव्यक्तियों पर विभिन्न विद्वानों द्वारा पिछले चार दशकों में कार्य किया गया है। आरम्भ में यह कार्य इसके किसी एक रूप-विशेष पर किया गया और इसके लिए विभिन्न उपागम (approaches) अपनाए गए जिनमें सांख्यिकीय उपागम (statistical approaches) प्रमुख रहे। इस संदर्भ में हेलेना दि मेडिरॉस कैसेली और अन्य (Helena de Medeiros Caseli et al. 2009) ने ‘Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains’ में इस पर प्रकाश डालते हुए कहा है,Although some work on MWEs is type independent (e.g. (Zhang et al., 2006; Villavicencio et al., 2007)), given the heterogeneity of MWEs much of the work looks instead at specific types of MWE like collocations (Pearce, 2002), compounds (Keller and Lapata, 2003) and VPCs (Baldwin, 2005; Villavicencio, 2005; Carlos Ramisch and Aline Villavicencio and Leonardo Moura and Marco Idiart, 2008). Some of these works concentrate on particular languages (e.g. (Pearce, 2002; Baldwin, 2005) for English and (Piao et al., 2006) for Chinese), but some work has also benefitted from asymmetries in languages, using information from one language to help deal with MWEs in the other (e.g. (na Villada Moir´on and Tiedemann, 2006; Caseli et al., 2009)).”[1] सन् 2000 के आस पास ही प्राकृतिक भाषा संसाधन में अपनी महत्वपूर्ण स्थिति के कारण बहुशब्दीय अभिव्यक्ति पर विभिन्न संगठनों और संगणकीय भाषावैज्ञानिकों ने ध्यान देना आरम्भ कर दिया। इसी क्रम में Association for Computational Linguistics (ACL) द्वारा क्रमश: 2003, 2004, 2006, and 2007 और 2009 में बहुशब्दीय अभिव्यक्तियों से जुड़े विविध पक्षों पर कार्यशालाओं का आयोजन किया गया। इसमें The Asian Federation of Natural Language Processing (AFNLP), EACL और  LREC आदि संगठनों का भी सक्रिय सहयोग रहा। इसके अतिरिक्त ‘International Journal of Language Resources and Evaluation’, और ‘Journal of Computer Speech and Language’ द्वारा भी बहुशब्दीय अभिव्यक्तियों से संबंधित कुछ गंभीर शोध-पत्र प्रकाशित किए गए हैं।
हिंदी में बहुशब्दीय अभिव्यक्तियों को लेकर अभी तक किए गए कार्य मुख्यत: शोध-पत्रों में ही प्राप्त होते हैं जो विभिन्न भारतीय संगणकीय भाषावैज्ञानिकों  द्वारा किए गए हैं। इस क्षेत्र में कार्य करने वाले विभिन्न विद्वानों द्वारा प्रकाशित आलेख अंग्रेजी में हैं, इनमें से कुछ प्रमुख विद्वानों के नाम इस प्रकार हैं : श्रीराम वेंकटपति और अरविंद कुमार जोशी (Using Information about Multi-word Expressions for the Word-Alignment Task), अनूप कुंचूकुट्टन (Anoop Kunchukuttan) और ओम पी. दामनी (Om P. Damani) (A System for Compound Noun Multiword Expression Extraction for Hindi), राजीव सैंगल, दीप्ति मिश्रा (Handling Multi-word Expressions without Explicit Linguistic Rules in an MT System) , विनित कुमार बिरला और अन्य (Vinit Kumar Birla et al.) (Multiword Expression Extraction – Text Processing) आदि।
प्राकृतिक भाषा संसाधन भाषा संसाधन के आरंभिक इतिहास को देखा जाए तो इसकी शुरूवात मशीनी अनुवाद से संबंधित प्रणालियों के विकास से हुई। इसमें सर्वप्रथम प्राकृतिक भाषाओं के संसाधन को बहुत हल्के में लिया गया। किंतु जैसे-जैसे विभिन्न कम्प्यूटर वैज्ञानिक इसकी गहराई में जाने लगे; वैसे-वैसे उन्हें समझ में आने लगा कि सामान्य व्यवहार में इतनी सरलतापूर्वक प्रयोग में आने वाली प्राकृतिक भाषाओं को समझना और तार्किक अभिव्यक्तियों (Logical Expressions) में व्यक्त करते हुए कम्प्यूटर को समझाना बहुत ही कठिन कार्य है। इसके लिए ऐसे व्याकरणों की आवश्यकता महसूस की जाने लगी जिनमें व्यक्त व्याकरणिक नियमों को एल्गोरिद्मों के रूप में प्रस्तुत किया जा सके। इस प्रकार के व्याकरणों को रूपात्मक व्याकरण (Formal Grammars) कहा गया जिनमें एल.एफ.जी. (Lexical Functional Grammar), जी.पी.एस.जी. (Generalized Phrase Structure Grammar), टी..जी. (Tree Adjoining Grammar) एवं एच.पी.एस.जी. (Head Driven Phrase Structure Grammar) आदि प्रमुख हैं। इस प्रकार के व्याकरणों के माध्यम से अनुप्रयोग प्रणालियों का विकास किया जाने लगा है। इसके दौरान भी प्राकृतिक भाषाओं की व्यावहारिक व्यापकता और जटिलता के कारण कुछ समस्याएँ उत्पन्न हुई हैं जैसे : अनेकार्थकता (Polysemy) की समस्या, संदिग्धार्थकता (Ambiguity) की समस्या , सामाजिक सांस्कृतिक परिवेश (Social and Cultural Reference) की समस्या  और बहुशब्दीय अभिव्यक्ति की समस्या।
हिंदी में बहुशब्दीय अभिव्यक्तियाँ कई रूपों में प्राप्त होती हैं; जैसे: नाम पद (Name Entities), मुहावरे और लोकोक्तियाँ (Idioms and Phrases), परसर्गीय पदबंध (Postpositional Phrases), प्रतिध्वन्यात्मक अभिव्यक्तियाँ (Echoic Expressions), सहप्रयोग (Collocations), वर्गाभिव्यक्तियाँ (Class Expressions), पुनरुक्ति (Reduplication) आदि। एक बहुशब्दीय अभिव्यक्ति के रूप में इनकी पहचान करने के लिए इनमें आए हुए शब्दों के बीच आर्थी संयोजकता (semantic compositionality) बहुत महत्वपूर्ण होती है। आर्थी संयोजकता के आधार पर मुख्यत: इनके चार रूप प्राप्त होते हैं : शाब्दिक अभिव्यक्तियाँ (Literal Expressions), मिश्र अभिव्यक्तियाँ (Complex Expressions), अर्ध-रूढ़ अभिव्यक्तियाँ (Semi-Idiomatic Expressions), रूढ़ अभिव्यक्तियाँ (Idiomatic Expressions)
संगणकीय क्षेत्र में भाषाई अनुप्रयोग से जुड़ी प्रणालियों के विकास हेतु किसी भी भाषा की वाक्य रचनाओं को समझने समझाने के लिए उनमें आई हुई शाब्दिक इकाइयों (lexical units) की शब्दभेद टैगिंग (PoS Tagging) आवश्यक होती है। सामान्यत: किसी वाक्य में आने वाली शाब्दिक इकाइयों की शब्दभेद टैगिंग शब्द स्तर पर ही की जाती है। किंतु, यदि उस वाक्य में कोई बहुशब्दीय अभिव्यक्ति आई हो तो उसकी पहचान करके उसके घटक शब्दों को एक साथ मिलाकर (एक इकाई मानते हुए) उसकी शब्दभेद टैगिंग (या संरचनात्मक कोटि का निर्धारण) अलग से करने की आवश्यकता पड़ती है।
हिंदी में प्राप्त बहुशब्दीय अभिव्यक्तियों  का शब्दभेद वर्गीकरण :
वास्तव में, बहुशब्दीय अभिव्यक्तियों की पहचान और उनकी शब्दभेद टैगिंग को लेकर वर्तमान समय में पर्याप्त भाषावैज्ञानिक नियमों का अभाव है। इनकी टैगिंग हेतु वर्गीकरण का कार्य प्रकार्यात्मक स्तर पर ही किया जा सकता है। अत: किसी वाक्य में आई हुई बहुशब्दीय अभिव्यक्तियों की वाक्यात्मक और आर्थी स्थितियों के आधार पर उनकी शब्दभेद टैगिंग हेतु वर्गीकरण इस प्रकार से किया जा सकता है :
1. संज्ञा पदबंध के रूप में बहुशब्दीय अभिव्यक्ति (MWEs as NP/ Nominal MWEs) :-  विश्व की लगभग सभी भाषाओं में संज्ञा पदबंध के रूप में संरचनात्मक प्रकार्य करने वाली बहुशब्दीय अभिव्यक्तियाँ प्राप्त होती हैं। संरचनात्मक और व्याकरणिक दोनों ही प्रकार के प्रकार्यों की दृष्टि से संज्ञा एक अत्यंत  महत्वपूर्ण कोटि है। इस संदर्भ में टनैका और बाल्डविन (Tanaka and Baldwin 2003) का कहना है, Nominal MWEs are one of the most common MWE types, in terms of token frequency, type frequency and their occurrence in world’s languages.” (Tanaka and Baldwin 2003 : 24) हिंदी में संज्ञा पदबंध के रूप में संरचनात्मक प्रकार्य करने वाली बहुशब्दीय अभिव्यक्तियाँ एकाधिक रूपों में प्राप्त होती हैं। इनके कुछ प्रमुख रूप इस प्रकार हैं :
1.1   नामपद (Name Entities) : वाक्य में नामपद के रूप में आने वाली शाब्दिक इकाइयाँ व्यक्तिवाचक संज्ञाएँ होती हैं। यदि किसी बहुशब्दीय अभिव्यक्ति द्वारा इस प्रकार की इकाई का निर्माण किया जाता है तो इस प्रकार निर्मित पदबंध संज्ञा पदबंध होता है। जैसे : पं. सूर्यकांत त्रिपाठी निराला एक महान कवि हैं।
1.2   दिनांक अभिव्यक्तियाँ (Date Entities) : सामान्यत: वाक्य में आने वाली दिनांक अभिव्यक्तियाँ भी संज्ञा पदबंध का कार्य करती हैं। जैसे :आज 12 फरवरी 2011 है।
1.3   रूढ़गठनात्मक (Idiosyncratic) संज्ञा + संज्ञा : हिंदी में कुछ बहुशब्दीय अभिव्यक्तियाँ ऐसी पाई जाती जिनमें एक साथ मिलने वाले घटक शब्द परस्पर रूढ़गठनातमक आर्थी संबंधों के आधार पर एक ही इकाई को इंगित या सूचित करते हैं। ये संबंध पर्यायता, विलोमता या विशिष्ट संबंध निर्धारण का हो सकता है। जैसे : वह रात दिन  मेहनत करता है।
1.4   संज्ञा की पूर्णत: पुनरुक्ति : संज्ञा शब्दों की पूर्णत: पुनरुक्ति से बनने वाली बहुशब्दीय अभिव्यक्तियों का संज्ञा पदबंध के रूप में आना स्वाभाविक बात है। जैसे : मेरे कदम कदम  पर काँटे हैं।
1.5   संज्ञा + आंशिक पुनरुक्ति : यदि किसी बहुशब्दीय अभिव्यक्ति में एक शब्द संज्ञा है और दूसरे शब्द में उसकी आंशिक रूप से ध्वन्यात्मक या आर्थी पुनरुक्ति हुई है तो इस प्रकार की सभी बहुशब्दीय अभिव्यक्तियाँ संज्ञा पदबंध का निर्माण करती हैं। जैसे : कुछ चाय वाय  हो जाए।
1.6   विशेषण + संज्ञा: कुछ बहुशब्दीय अभिव्यक्तियाँ विशेषण और संज्ञा शब्दों के मिलने से निर्मित होती हैं। इस प्रकार की बहुशब्दीय अभिव्यक्तियाँ भी संज्ञा पदबंध का निर्माण करती हैं। जैसे : इस मंदिर का प्रवेश द्वार  बहुत बड़ा है।
2.  क्रिया पदबंध के रूप में बहुशब्दीय अभिव्यक्तियाँ (MWEs as Verb Phrases/ Verbal MWEs) : वाक्य रचना में क्रिया पदबंध केंद्रीय होता है। वाह्यकेंद्रिक रचना होने के कारण इनका विश्लेषण अपेक्षाकृत वैसे ही कठिन होता है। ऐसी स्थिति में बहुशब्दीय अभिव्यक्ति के रूप में आने वाले पदबंधों की पहचान कठिन हो जाती है। हिंदी में अनेक प्रकार संरचनात्मक इकाइयाँ क्रिया पदबंध होने के साथ-साथ अर्थ के स्तर पर एकात्मकता और विशिष्टता के कारण बहुशब्दीय अभिव्यक्ति का निर्माण करती हैं। इनके निम्नलिखित रूप प्राप्त होते हैं :
2.1 संज्ञा + क्रिया : हिंदी में संज्ञा और क्रिया के योग से जिन बहुशब्दीय अभिव्यक्तियों का निर्माण होता है पदबंध स्तर पर वे अभिव्यक्तियाँ क्रिया पदबंध का कार्य करती है। जैसे : बारिश होना, बर्फ पड़ना।
2.2 विशेषण + क्रिया : विशेषणों के साथ क्रिया के योग से भी मिश्र क्रिया की रचना होती है। इस प्रकार ये क्रियाएँ मिश्र विधेय के रूप में बहुशब्दीय अभिव्यक्ति का निर्माण करती हैं। जैसे : ठीक करना, स्पष्ट करना।
2.3 क्रियांगी + क्रिया : क्रियांगी शब्दों के साथ क्रियाकरों का प्रयोग कर मिश्र क्रियाओं की रचना की जाती है जो एक प्रकार की बहुशब्दीय अभिव्यक्ति है, जैसे, मालूम करना, पेश करना, स्वीकार करना, मना करना, अदा करना, खत्म करना आदि
2.4 क्रिया + क्रिया (V + V) : क्रिया+ क्रिया रचनाओं की पहचान बहुशब्दीय अभिव्यक्ति या सामान्य क्रिया पदबंध के रूप में करना बहुत ही कठिन कार्य होता है। इनमें कुछ तो धातु रूप में आती हैं तो कुछ रूप-परिवर्तनों के साथ। अत: इनके द्वारा बहुशब्दीय अभिव्यक्ति निर्माण की अपनी परिस्थितियाँ होती हैं। देबाश्री चक्रबर्ती, हेमंग मैंडलिया और अन्य (Debasri Chakrabarti, Hemang Mandalia et al. 2008) ने “Hindi Compound Verbs and their Automatic Extraction” में इस प्रकार की संरचनाओं का विश्लेषण करते हुए इसके पाँच प्रकारों की चर्चा की है:
“We have identified five different types of V+V sequences in Hindi. These are:
1.      V1 stem + V2: maar Daalnaa (kill-put) ‘kill’.
2.      V1 inf-e +lagnaa: rone lagnaa (cry-feel) ‘start crying’.
3.      V1 inf+paRnaa: bolnaa pRa (say-lie) ‘say’.
4.      V1 inf-e +V2: likhne ko/ke lie kahaa ‘asked to write’.
5.      V1-kar+V2: lekar gayaa “took and went’.
वास्तव में, क्रिया + क्रिया के योग से बनने वाली ऐसी अभिव्यक्तियों को  हिंदी के सैद्धांतिक विवेचन में संयुक्त क्रिया और यौगिक क्रिया कहा गया है।
3.      मिश्र परसर्गों के रूप में बहुशब्दीय अभिव्यक्तियाँ (MWEs as Complex Postpositions) : जब एक से अधिक परसर्ग मिलकर एक ही इकाई का निर्माण करते हैं तो इस प्रकार से बनने वाली अभिव्यक्तियों को मिश्र परसर्ग कहते हैं। अंग्रेजी भाषा में इनका विश्लेषण करते हुए बैल्ड्विन और अन्य (Baldwin et al. 2010) ने इन्हें Complex prepositions’ नाम दिया है।  जैसे : वह घड़े में से  सोना निकाला।
4.      विशेषण पदबंध के रूप में बहुशब्दीय अभिव्यक्तियाँ (MWEs as Adjective Phrase) : विशेषण पदबंध के रूप में आने वाली बहुशब्दीय अभिव्यक्तियों की संरचना प्राय: विशेषण + विशेषण (Adj. + Adj.) होती है। जैसे : मुझे कुछ कुछ ठंड लग रही है।
5.      क्रिया-विशेषण पदबंध के रूप में बहुशब्दीय अभिव्यक्तियाँ (MWEs as Adverb Phrase) : क्रिया-विशेषण पदबंध के रूप में भी बहुशब्दीय अभिव्यक्तियाँ आती हैं। पं. कामताप्रसाद गुरू ने रूप के अनुसार क्रिया-विशेषण के तीन प्रकार माने हैं- (1) मूल, (2) यौगिक और (3) स्थानीय।  (गुरू 2005 : 122) यौगिक क्रिया-विशेषण की उन्होंने परिभाषा इस प्रकार से दी है,जो क्रिया-विशेषण दूसरे शब्दों में प्रत्यय वा शब्द जोड़ने से बनते हैं, उन्हें यौगिक क्रिया-विशेषण कहते हैं।”  (गुरू 2005 : 123) उनके द्वारा यौगिक और संयुक्त क्रिया-विशेषण बताए गए हैं। कुछ प्रमुख रूप जो बहुशब्दीय अभिव्यक्ति के अंतर्गत आते हैं, इस प्रकार हैं :
o   अव्यय + निपात/परसर्ग : यहाँ तक, झट से आदि।
o   क्रिया-विशेषण + क्रिया-विशेषण : अभी-अभी, धीरे-धीरे, कब-कब, बकते-बकते, पहले पहल आदि।
o   संज्ञा + संज्ञा : घर-घर, घड़ी-घड़ी, बीचों-बीच  आदि।
o   विशेषण + विशेषण : ठीक-ठीक, साफ-साफ आदि।
o   दो भिन्न-भिन्न क्रिया-विशेषणों का मेल : जहाँ-तहाँ, जहाँ-कहीं, इधर उधर, जब कभी, कल-परसों, आस-पास, आमने-सामने आदि।
इस प्रकार, शाब्दिक इकाइयों की तरह बहुशब्दीय अभिव्यक्तियाँ भी एक ही इकाई का कार्य करती हैं। अत: इनकी शब्द-भेद कोटि का निर्धारण इनके द्वारा वाक्य में किए जा रहे संरचनात्मक प्रकार्य के आधार पर किया जाना चाहिए। वर्तमान परिप्रेक्ष्य में यह भी बात सत्य है कि शब्दों का कौन-सा संयोजन बहुशब्दीय अभिव्यक्ति का निर्माण करेगा?’ इसके निर्धारण हेतु नियमों का अभाव तो है ही, यदि विभिन्न प्रकार के शब्द मिलकर बहुशब्दीय अभिव्यक्ति का निर्माण करते हैं तो उनके संरचनात्मक प्रकार्य की कोटि कौन-सी होगी?’ यह बता पाना भी कठिन ही है। अत: इसके लिए गहन शोध की आवश्यकता है।
                                   संदर्भ सूची
1.          गुरू, कामता प्रसाद (2005) हिंदी व्याकरण, वाराणसी : नागरी प्रचारिणी सभा।
2.          गोस्वामी, डॉ. कृष्ण कुमार (2007) आधुनिक हिंदी : विविध आयाम, दिल्ली : आलेख प्रकाशन।
3.         मल्होत्रा, विजय कुमार (2002) कम्प्यूटर के भाषिक अनुप्रयोग, नई दिल्ली : वाणी प्रकाशन
4.         सिंह, डॉ. सूरजभान (2000) हिंदी का वाक्यात्मक व्याकरण, दिल्ली : साहित्य सहकार।
5.         Chaitantanya, Vineet, Sangal, Raajiv (2000) Natural Language Processing, New Delhi : Prentice Hall of India Private Limited.
6.         Baldwin, Timothy and Su Nam Kim (2010) Multiword Expressions, in Nitin Indurkhya and Fred J. Damerau (eds.) Handbook of Natural Language Processing, Second Edition, CRC Press, Boca Raton, USA, pp. 267-292.
7.         Chakrabarti, Debasri, Mandalia, Hemang et. al. (2008) Hindi Compound Verbs and their Automatic Extraction.
8.          Chakraborty, Tanmoy, Bandyopadhyay, Sivaji (2010) Identification of Reduplication in Bengali Corpus and their Semantic Analysis: A Rule-Based Approach. In Proceedings of the Multiword Expressions: From Theory to Applications (MWE 2010), pages 73–76, Beijing, August 2010
9.          Ivan A. Sag et. al. (2003) Multiword Expressions:A Pain in the Neck for NLP? A Part of LinGO  Project, Stanford University (http://lingo.stanford.edu)
 Tanaka, T. and T. Baldwin (2003). Noun-noun compound machine translation : a feasibility study on shallow processing. In Proceedings of the ACL 2003 Workshop on Multiword Expressions: Analysis, Acquisition and Treatment, Sapporo, Japan, pp.17-24


[1] Proceedings of the 2009 Workshop on Multiword Expressions, ACL-IJCNLP 2009, pages 1–8,Suntec, Singapore, 6 August 2009. c 2009 ACL and AFNLP

1 comment: