Total Pageviews

Tuesday, January 1, 2019

हिंदी संरचनात्‍मक संदिग्‍धार्थकता के पद-विच्‍छेदन हेतु डाटा संरचना एवं आरेख


.........................................................................................................................


आभ्यंतर (Aabhyantar)      SCONLI-12  विशेषांक         ISSN : 2348-7771

.........................................................................................................................

38. हिंदी संरचनात्‍मक संदिग्‍धार्थकता के पद-विच्‍छेदन हेतु डाटा संरचना एवं आरेख
प्रवेश कुमार द्विवेदी : प्रौद्योगिकी अध्ययन केंद्र, म. गां. अं. हिं वि., वर्धा

1.       प्रस्‍तावना:
प्रस्‍तुत शोध-पत्र मुख्‍य रूप से हिंदी संरचनात्‍मक संदिग्‍धार्थकता के पद-विच्‍छेदन हेतु डाटा संरचना एवं अन्‍य भाषिक डाटा संसाधन से संबंधित है। यहां पर यह ध्‍यान देना बहुत ही महत्‍वपूर्ण है कि जब हम भाषा के वाक्‍यों को पद-विच्‍छेदित कर रहे होते हैं, तो हमें डाटा संरचना एवं पद-विच्‍छेदन के वृक्ष आरेख दोनों के बीच बहुत ही गहरा संबंध स्‍पष्‍ट तौर पर देखने को मिलता है। प्राकृतिक भाषा संसाधन में पाठ के समस्‍त घटकों के मुख्‍य भाग एवं उप-भाग के बीच सही संबंध स्‍थापित करना एक मुश्किल कार्य होता है। अर्थात् किसी भी भाषा के पाठ में उपस्थित घटकों एवं विभिन्‍न भागों के बीच संभावित सभी सही संबंध स्‍थापित किया जा सकता है। प्रस्‍तुत पत्र के अंतर्गत संदर्भित ज्ञान की कमी अथवा भाषिक ज्ञान की कमी की वजह से उत्‍पन्‍न होने वाली संदिग्‍धार्थकता को विश्‍लेषित करने एवं इच्छित बड़े पैमाने पर आवश्‍यक परिणाम को प्राप्‍त करने हेतु आरेख का निर्माण किया गया है।
2.       पद-विच्‍छेदन का डाटा संरचना:
प्राकृतिक भाषा को मशीन में संसाधित करने हेतु कई आवश्‍यक चरणों से गुजरना पड़ता है। यहाँ पर हिंदी भाषा के वाक्‍य संरचना में उपस्थित संदिग्‍धता को पद-विच्‍छेदन हेतु वृक्ष-आरेख एवं डाटा संरचना के माध्‍यम से विश्‍लेषित करने का कार्य किया गया है। हिंदी भाषा में उपस्थित संरचना स्‍तर पर संदिग्‍धता को समझने हेतु निम्‍न चरणों पर ध्‍यान देना आवश्‍यक हो जाता है।  
पाठ में उपस्थित समस्‍त अक्षरों के द्वारा एक अर्थ को प्रतिनिधित्‍व करने में सक्षम होना चाहिए। जैसे:
1.       बाजार
पाठ के सभी वाक्‍य घटक एक अनुक्रम में होने चाहिए जैसे: 
2.       राम बाजार जाता है।
पाठ के समस्‍त वाक्‍य घटकों के अनुक्रमों के बीच सही संबंध होना चाहिए, जैसे:
उक्‍त पद-विच्‍छेदित संख्‍या 3 के वृक्ष आरेख से कुछ चरण के आंशिक परिणाम को लेते हैं:
साधारण तौर पर तो इसे वाक्‍यों के पद-विच्‍छेदन का वृक्ष आरेख कहते हैं और इसकी सहायता से किसी भी भाषा के वाक्‍यों को विच्‍छेदित कर सकते हैं, लेकिन यह अभी भी संदिग्‍ध वाक्‍यों को विच्‍छेदन करने एवं औसत दर्जे का परिणाम देने में असक्षम है। भाषा में निहित संदिग्‍धार्थकता के कारण,वांछित परिणाम प्राप्‍त करने के लिए वाक्‍य एवं वाक्‍य के उप-भाग के बीच सही संबंध स्‍थापित करना आवश्‍यक हो जाता है। यदि हमनिम्‍न वाक्‍य को संसाधित करते हैं तो
5. मैंने हथौड़ा लिए आदमी को मारा।
इसके लिए हमें दो 6. एवं 7. को प्राप्‍त करना होगा:
            संख्‍या क्र. 5 के वाक्‍य संसाधन में, हम निम्‍नलिखित मध्‍यवर्ती परिणाम प्राप्‍त करते हैं:
यहाँ पर वाक्‍य के दो मध्‍यवर्ती वृक्ष (8 एवं 9) हैं।
साधारण तौर पर,हम वाक्‍य के पद-विच्‍छेदन के वृक्ष आरेख में मुख्‍य भाग एवं उसके अन्‍य उप-भाग (जबतक सभी घटक संदिग्‍ध न हों) के बीच सही संबंध संचालित करने में सक्षम होते हैं। हम वाक्‍य-वृक्ष के घटकों की सूची को वाक्‍य-वृक्ष का परिवार कहते हैं। संदिग्‍ध वाक्‍यों को स्‍पष्‍टतम् विश्‍लेषित करने हेतु हमें आवश्‍यकता है, पाठ के घटकों (अक्षरों) को प्रतिनिधित्‍व करने की, रैखिक अनुक्रम (वाक्‍य-वृक्ष) की, पदानुक्रमिक आधार (वृक्ष आरेख में) की एवं अन्‍य विकल्‍पों (वाक्‍य वृक्ष में) की। उक्‍त समस्‍त वाक्‍य-वृक्ष को आरेख के माध्‍यम से भी हम स्‍पष्‍ट कर सकते हैं, जो हमें वाक्‍य के समस्‍त घटकों को प्रतिनिधित्‍व करने की अनुमति प्रदान करता है और इसे हम आरेख के माध्‍यम से सरल एवं सुस्‍पष्‍ट तरीके से प्रस्‍तुत कर सकते हैं। जिसकी विस्‍तृत चर्चा निम्‍न में की गई है।
3.       चार्ट:
यहाँ पर चार्ट एक ऐसा ग्राफ है, जो नोड एवं वृत्ति चाप के समुच्‍चय को आपस में जोड़ता है। वृत्ति चाप अनुक्रमिक एवं रैखिक होते हैं एवं यहां पर पहले से अंतिम नोड एक तरह का होता है। आरेख कुडली (Loops) की तरहनहीं होता है। इसके प्रत्‍येक वृत्ति-चाप कोई न कोई सूचना को प्रदर्शित करता है, जिसे लेबलिंग (labelling) कहते हैं।निम्‍नलिखित उदाहरण में वाक्‍य के 6 शब्‍दों के अनुक्रम हेतु चार्ट में प्रदर्शित किया गया है:
उदाहरण:
3.
यहाँ पर वृत्ति चाप एक नोड की तरह कार्य करता है, जिसे रेखा आपस में जोड़ने का कार्य करती है। दो वृत्ति-चाप के बीच में वाक्‍य का एक घटक अपनी समस्‍त सूचना के साथ स्‍थापित होता है। इस लेबलिंग के माध्‍यम से किसी भी भाषा के वाक्‍यों को पद-विच्‍छेदित किया जा सकता है, जो वृक्षानुक्रम न होकर रैखिक क्रम में होता है। वाक्‍य को रैखिक क्रम में विश्‍लेषित करते समय समझने में थोड़ा जटिल तो हो जाता है लेकिन इसे सार्वभौमिकता प्रदान करने में आसान हो जाता है। 
उक्‍त रैखिक चार्ट में उपस्थित सभी वाक्‍य घटकों को व्‍याकरणिक विश्‍लेषण निम्‍न प्रकार से किया जा सकता है:
4.       मैनें                = = >   N(मैं)
हथौड़ा लिए     = = >   ADJ (हथौड़ा लिए)
हथौड़ा लिए     = = >   ADV  (हथौड़ा लिए)
आदमी           = = >    N (आदमी)
को                 = = >  PSP (को)
मारा      = = >V(मारा)
उपरोक्‍त वाक्‍य विश्‍लेषण के आधार पर स्‍पष्‍ट तौर पर नियमों का प्रतिपादन किया जा सकता है। यह नियम इस प्रकार के वाक्‍य-सांचों के लिए सही एवं सटीक होता है।

N                         = = >  NP (N(?X))
ADV(?X) + N (?Y) + PSP(?Z)= = >NP (ADV(?X) N (?Y) PSP(?Z))
ADJ(?X) + N(?Y) + PSP(?Z)= = >NP (ADJ(?X) N(?Y) PSP(?Z))
V(?X) + NP (?Y)  =  = > VP (V (?X)  NP (?X))
NP(?X) + VP (?Y)  = = >S(NP(?X) VP(?Y))

उपर्युक्‍त प्रतिपादित नियमों में प्रयोग किए चर एवं संक्षिप्‍ताक्षर इस प्रकार हैं:
1.       NP (Noun Phrase)
2.       VP (Verb Phrase)
3.       V (Verb)
4.       ADJ (Adjective)
5.       ADV (Adverb)
6.       N (Noun)
7.       PSP (Postposition)
8.       ? यह चर के इच्छित मान् को दर्शाता है।
9.       +यह दो प्रतीकों को जोड़ने का कार्य करता है।
10.   X, Y, Z चर हैं जिसका मान् गतिशील है।
11.    = = >पुर्नलिखित(Rewrite) प्रतीक है जो एल्‍गोरिद्म के अर्थ को प्रकट करता है।
उपरोक्‍त नियमों में ? यह बतलाता है कि चर राशि में आने वाला मान् गतिशील होता है। अर्थात् जिस व्‍याकरणिक समूह में प्रयोग किया गया है उसके घटकों की संख्‍या घट एवं बढ़ सकती है। X, Y, Z ऐसे चर है जिनके मान् बदलते रहते है एवं आवश्‍यकतानुसार मान् स्‍थापित किया जा सकते हैं।उपर्युक्‍त नियम अंतिम नोड से वाक्‍य के घटकों का विश्‍लेषण करते हुए पहले नोड़ की ओर जाता है और अंत में एक विश्‍लेषित वाक्‍य को प्रदान करता है। इन नियमों का प्रयोग करके विश्‍लेषित वाक्‍य को 12 में देख सकते हैं। (संलग्न)


4.       पद-विच्‍छेदित वृक्ष चार्ट की तरह:
यहाँ एक वृक्ष आरेख में दो प्रकार के संबंध होते हैं, वृक्षानुक्रम एवं रैखिक। वृक्षानुक्र संबंध में वृक्ष की शाखा के द्वारा प्रत्‍यक्ष तौर पर प्रदर्शित करता है, जबकि रैखिक में मूल नोड के संदर्भ के द्वारा अप्रत्‍यक्ष तौर पर प्रदर्शित करता है।
जैसे: 13.                                                  NP



                                                 ADJ          N            PSP
उक्‍त में प्रत्‍यक्ष संबंध को देखा जा सकता है एवं अप्रत्‍यक्ष संबंध को निम्‍न रूप में प्राप्‍त करते हैं:
14.                                            NP
                       
                                              ADJ            N            PSP                                
निम्‍न में रेखा चार्ट की तरह दिखाई देती है, इसमे सिर्फ अंतर है कि उक्‍त में सारी सूचनाएं नोड में समाहित होती हैं, जबकि चार्ट में सारी सूचनाएं वृत्ति-चाप के द्वारा प्रदर्शित होती हैं। इस हम 17 में आसानी के साथ समझ सकते हैं:
15.                    1                                           2
                   NP                          
                     3        ADJ      4          N        5        PSP        6         
उपरोक्‍त में 14 एवं 15 दोनों ही चार्ट हैं।
16.                          3     ADJ        4        N           5       PSP        6             

पद-विच्‍छेदित वृक्ष आरेख 12 को चार्ट के माध्‍यम से विश्‍लेषित करने का कार्य किया गया है, जिसे 17 में देखा जा सकता है: 
(संलग्न)
5.       निष्‍कर्ष:
प्राकृतिक भाषा संसाधन के अंतर्गत संदिग्‍धार्थकता की समस्‍या एक प्रमुख समस्‍या है, जो विभिन्‍न अवस्‍था में भिन्‍न-भिन्‍न स्‍वरूप ग्रहण करती है एवं विभिन्‍न स्‍तरों पर भाषा के अर्थ को प्रभावित करती है। प्रस्‍तुत शोध-कार्य में प्रयुक्‍त किए गए डाटा संरचना एवं आरेख के माध्‍यम से संदिग्‍ध वाक्‍यों का विश्‍लेषण बड़े ही सरलता के साथ किया जा सकता है, जो संदिग्‍ध वाक्‍य संरचना के अर्थ को समझने में हमारी मदद कर सकता है। 

संदर्भ-सूची:
1.       ओझा, त्रिभुवन. हिंदीमेंअनेकार्थकताकाअनुशीलन. विश्वविद्यालयप्रकाशन: वाराणसी. 1986.
2.       सिंह, सूरजभान. हिंदीकावाक्यात्मकव्याकरण. साहित्यसहकार प्रकाशन : दिल्ली. 1985.
3.       सिंह, सूरजभान. अंग्रेजी-हिंदी अनुवाद व्‍याकरण. प्रभात प्रकाशन : दिल्ली. 2000.
4.       श्रीवास्तव, रवीन्द्रनाथ. भाषाविज्ञानसैद्धान्तिकचिंतन. रामकृष्णप्रकाशन : नईदिल्ली. 1997.
5.       गुरु, कामताप्रसाद. हिंदीव्याकरण. लोकभारतीप्रकाशन : इलाहाबाद. 2009.
6.       मल्होत्रा, विजयकुमार. कंप्यूटरकेभाषिकअनुप्रयोग. वाणीप्रकाशन : नईदिल्ली. 2002.


No comments:

Post a Comment