.........................................................................................................................
आभ्यंतर (Aabhyantar)
SCONLI-12
विशेषांक ISSN : 2348-7771
.........................................................................................................................
38. हिंदी संरचनात्मक संदिग्धार्थकता के पद-विच्छेदन हेतु डाटा संरचना एवं आरेख
प्रवेश कुमार द्विवेदी : प्रौद्योगिकी अध्ययन केंद्र, म. गां. अं. हिं वि.,
वर्धा
1.
प्रस्तावना:
प्रस्तुत शोध-पत्र मुख्य रूप से हिंदी संरचनात्मक संदिग्धार्थकता के पद-विच्छेदन हेतु डाटा संरचना एवं अन्य भाषिक डाटा संसाधन से संबंधित है। यहां
पर यह ध्यान देना बहुत ही महत्वपूर्ण है कि जब हम भाषा के वाक्यों को पद-विच्छेदित कर रहे होते हैं, तो हमें डाटा संरचना
एवं पद-विच्छेदन के वृक्ष आरेख दोनों के बीच बहुत ही गहरा संबंध स्पष्ट तौर पर
देखने को मिलता है। प्राकृतिक भाषा संसाधन में पाठ के समस्त घटकों के मुख्य भाग
एवं उप-भाग के बीच सही संबंध स्थापित करना एक मुश्किल कार्य होता है। अर्थात् किसी
भी भाषा के पाठ में उपस्थित घटकों एवं विभिन्न भागों के बीच संभावित सभी सही
संबंध स्थापित किया जा सकता है। प्रस्तुत पत्र के अंतर्गत संदर्भित ज्ञान की कमी
अथवा भाषिक ज्ञान की कमी की वजह से उत्पन्न होने वाली संदिग्धार्थकता को विश्लेषित
करने एवं इच्छित बड़े पैमाने पर आवश्यक परिणाम को प्राप्त करने हेतु आरेख का
निर्माण किया गया है।
2.
पद-विच्छेदन का डाटा संरचना:
प्राकृतिक भाषा को मशीन में संसाधित करने हेतु कई आवश्यक चरणों से गुजरना
पड़ता है। यहाँ पर हिंदी भाषा के वाक्य संरचना में उपस्थित संदिग्धता को पद-विच्छेदन हेतु वृक्ष-आरेख एवं डाटा संरचना के माध्यम से विश्लेषित करने का कार्य किया गया है।
हिंदी भाषा में उपस्थित संरचना स्तर पर संदिग्धता को समझने हेतु निम्न चरणों पर
ध्यान देना आवश्यक हो जाता है।
पाठ में उपस्थित समस्त अक्षरों के द्वारा एक अर्थ को प्रतिनिधित्व करने में
सक्षम होना चाहिए। जैसे:
1.
बाजार
पाठ के सभी वाक्य
घटक एक अनुक्रम में होने चाहिए जैसे:
2.
राम बाजार जाता है।
पाठ के समस्त वाक्य घटकों के अनुक्रमों के बीच सही संबंध
होना चाहिए, जैसे:
उक्त पद-विच्छेदित संख्या 3
के वृक्ष आरेख से कुछ चरण के आंशिक परिणाम को लेते हैं:
साधारण तौर पर तो इसे वाक्यों के पद-विच्छेदन का वृक्ष आरेख
कहते हैं और इसकी सहायता से किसी भी भाषा के वाक्यों को विच्छेदित कर सकते हैं, लेकिन यह अभी भी संदिग्ध वाक्यों को विच्छेदन करने एवं औसत दर्जे का
परिणाम देने में असक्षम है। भाषा में निहित संदिग्धार्थकता के कारण,वांछित परिणाम प्राप्त करने के लिए वाक्य एवं वाक्य के उप-भाग के बीच सही संबंध स्थापित करना आवश्यक हो जाता है। यदि हमनिम्न वाक्य
को संसाधित करते हैं तो
5. मैंने हथौड़ा लिए आदमी
को मारा।
इसके लिए हमें दो 6. एवं 7.
को प्राप्त करना होगा:
संख्या क्र.
5 के वाक्य संसाधन में, हम निम्नलिखित मध्यवर्ती
परिणाम प्राप्त करते हैं:
यहाँ पर वाक्य के दो मध्यवर्ती
वृक्ष (8
एवं 9) हैं।
साधारण तौर पर,हम वाक्य के पद-विच्छेदन के वृक्ष आरेख में मुख्य भाग एवं उसके अन्य उप-भाग (जबतक सभी घटक संदिग्ध न हों) के बीच सही संबंध
संचालित करने में सक्षम होते हैं। हम वाक्य-वृक्ष के घटकों की सूची
को वाक्य-वृक्ष का परिवार कहते हैं। संदिग्ध वाक्यों को स्पष्टतम् विश्लेषित करने हेतु
हमें आवश्यकता है, पाठ के घटकों (अक्षरों)
को प्रतिनिधित्व करने की, रैखिक अनुक्रम (वाक्य-वृक्ष)
की, पदानुक्रमिक आधार (वृक्ष आरेख में)
की एवं अन्य विकल्पों (वाक्य वृक्ष में)
की। उक्त समस्त वाक्य-वृक्ष को आरेख के माध्यम से भी हम स्पष्ट कर सकते हैं, जो हमें वाक्य के समस्त घटकों को प्रतिनिधित्व करने की अनुमति प्रदान करता
है और इसे हम आरेख के माध्यम से सरल एवं सुस्पष्ट तरीके से प्रस्तुत कर सकते
हैं। जिसकी विस्तृत चर्चा निम्न में की गई है।
3.
चार्ट:
यहाँ पर चार्ट एक ऐसा ग्राफ है, जो नोड एवं वृत्ति चाप
के समुच्चय को आपस में जोड़ता है। वृत्ति चाप अनुक्रमिक एवं रैखिक होते हैं एवं
यहां पर पहले से अंतिम नोड एक तरह का होता है। आरेख कुडली (Loops) की तरहनहीं होता है। इसके प्रत्येक वृत्ति-चाप कोई न कोई सूचना को प्रदर्शित करता है, जिसे लेबलिंग (labelling) कहते हैं।निम्नलिखित उदाहरण में वाक्य के 6 शब्दों के अनुक्रम हेतु चार्ट में प्रदर्शित किया गया है:
उदाहरण:
3.
यहाँ पर वृत्ति चाप एक नोड की तरह कार्य करता है, जिसे रेखा आपस में जोड़ने का कार्य करती है। दो वृत्ति-चाप के बीच में वाक्य का एक घटक अपनी समस्त सूचना के साथ स्थापित होता है।
इस लेबलिंग के माध्यम से किसी भी भाषा के वाक्यों को पद-विच्छेदित किया जा सकता है, जो वृक्षानुक्रम न होकर
रैखिक क्रम में होता है। वाक्य को रैखिक क्रम में विश्लेषित करते समय समझने में
थोड़ा जटिल तो हो जाता है लेकिन इसे सार्वभौमिकता प्रदान करने में आसान हो जाता
है।
उक्त रैखिक चार्ट में उपस्थित सभी वाक्य घटकों को व्याकरणिक विश्लेषण निम्न
प्रकार से किया जा सकता है:
4.
मैनें = = > N(मैं)
हथौड़ा लिए =
= > ADJ (हथौड़ा लिए)
हथौड़ा लिए = = >
ADV (हथौड़ा लिए)
आदमी = = >
N (आदमी)
को = = >
PSP (को)
मारा = = >V(मारा)
उपरोक्त वाक्य विश्लेषण के आधार पर स्पष्ट तौर पर
नियमों का प्रतिपादन किया जा सकता है। यह नियम इस प्रकार के वाक्य-सांचों के लिए सही एवं सटीक होता है।
N = = > NP (N(?X))
ADV(?X)
+ N (?Y) + PSP(?Z)= = >NP (ADV(?X) N (?Y) PSP(?Z))
ADJ(?X)
+ N(?Y) + PSP(?Z)= = >NP (ADJ(?X) N(?Y) PSP(?Z))
V(?X)
+ NP (?Y) = = > VP (V (?X) NP (?X))
NP(?X)
+ VP (?Y) = = >S(NP(?X) VP(?Y))
उपर्युक्त प्रतिपादित नियमों में प्रयोग किए चर एवं
संक्षिप्ताक्षर इस प्रकार हैं:
1.
NP
(Noun Phrase)
2.
VP
(Verb Phrase)
3.
V
(Verb)
4.
ADJ
(Adjective)
5.
ADV
(Adverb)
6.
N
(Noun)
7.
PSP
(Postposition)
8.
? यह चर के इच्छित मान् को दर्शाता है।
9.
+यह दो प्रतीकों को जोड़ने का कार्य करता है।
10.
X,
Y, Z चर हैं जिसका मान् गतिशील है।
11.
= = >पुर्नलिखित(Rewrite) प्रतीक है जो एल्गोरिद्म के अर्थ को प्रकट करता है।
उपरोक्त नियमों में ?
यह बतलाता है कि चर राशि में आने वाला मान् गतिशील होता है।
अर्थात् जिस व्याकरणिक समूह में प्रयोग किया गया है उसके घटकों की संख्या घट एवं
बढ़ सकती है। X,
Y, Z ऐसे चर है जिनके मान् बदलते रहते है एवं आवश्यकतानुसार
मान् स्थापित किया जा सकते हैं।उपर्युक्त नियम अंतिम नोड से वाक्य के घटकों का
विश्लेषण करते हुए पहले नोड़ की ओर जाता है और अंत में एक विश्लेषित वाक्य को
प्रदान करता है। इन नियमों का प्रयोग करके विश्लेषित वाक्य को 12 में देख सकते हैं।
(संलग्न)
4.
पद-विच्छेदित वृक्ष चार्ट की तरह:
यहाँ एक वृक्ष आरेख में दो प्रकार के संबंध होते हैं, वृक्षानुक्रम एवं रैखिक। वृक्षानुक्र संबंध में वृक्ष की शाखा के द्वारा
प्रत्यक्ष तौर पर प्रदर्शित करता है, जबकि रैखिक में मूल नोड
के संदर्भ के द्वारा अप्रत्यक्ष तौर पर प्रदर्शित करता है।
जैसे: 13.
NP
ADJ N PSP
उक्त में प्रत्यक्ष संबंध को देखा जा सकता है एवं अप्रत्यक्ष
संबंध को निम्न रूप में प्राप्त करते हैं:
14. NP
ADJ N PSP
निम्न में रेखा चार्ट की तरह दिखाई देती है, इसमे सिर्फ अंतर है कि उक्त में सारी सूचनाएं नोड में समाहित होती हैं, जबकि चार्ट में सारी सूचनाएं वृत्ति-चाप के द्वारा प्रदर्शित
होती हैं। इस हम 17 में आसानी के साथ समझ सकते हैं:
15.
1 2
16. 3
ADJ 4 N 5 PSP 6
पद-विच्छेदित वृक्ष आरेख 12 को चार्ट के माध्यम से
विश्लेषित करने का कार्य किया गया है, जिसे 17 में देखा जा सकता है:
5.
निष्कर्ष:
प्राकृतिक भाषा संसाधन
के अंतर्गत संदिग्धार्थकता की समस्या एक प्रमुख समस्या है, जो विभिन्न अवस्था में भिन्न-भिन्न स्वरूप ग्रहण
करती है एवं विभिन्न स्तरों पर भाषा के अर्थ को प्रभावित करती है। प्रस्तुत शोध-कार्य में प्रयुक्त किए गए डाटा संरचना एवं आरेख के माध्यम से संदिग्ध वाक्यों
का विश्लेषण बड़े ही सरलता के साथ किया जा सकता है, जो संदिग्ध वाक्य संरचना के अर्थ को समझने में हमारी मदद कर सकता है।
संदर्भ-सूची:
1.
ओझा, त्रिभुवन. हिंदीमेंअनेकार्थकताकाअनुशीलन. विश्वविद्यालयप्रकाशन: वाराणसी. 1986.
2.
सिंह, सूरजभान. हिंदीकावाक्यात्मकव्याकरण. साहित्यसहकार प्रकाशन : दिल्ली. 1985.
3.
सिंह, सूरजभान. अंग्रेजी-हिंदी अनुवाद व्याकरण. प्रभात प्रकाशन : दिल्ली. 2000.
4.
श्रीवास्तव, रवीन्द्रनाथ. भाषाविज्ञानसैद्धान्तिकचिंतन. रामकृष्णप्रकाशन : नईदिल्ली. 1997.
5.
गुरु, कामताप्रसाद. हिंदीव्याकरण. लोकभारतीप्रकाशन : इलाहाबाद. 2009.
6.
मल्होत्रा, विजयकुमार. कंप्यूटरकेभाषिकअनुप्रयोग. वाणीप्रकाशन : नईदिल्ली. 2002.
No comments:
Post a Comment