Total Pageviews

Wednesday, February 27, 2019

आर्थी विश्लेषण


आर्थी विश्लेषण
अर्थ भाषा की आधारभूत इकाई है। भाषा के संरचनात्मक अध्ययन की दृष्टि से अर्थ को केंद्र के बजाए परिधि में रखा गया है। किंतु भाषिक अभिव्यक्तियों का स्वरूप अर्थ के माध्यम से ही निर्धारित होता है। इसलिए भाषा संसाधन में भी संरचनात्मक नियमों के अलावा आर्थी विश्लेषण की आवश्यकता पड़ती है।
शब्द भाषा की वह मूल इकाई है, जो स्वतंत्र रूप से अर्थ को धारण करती है। इसलिए शब्दों के बीच विभिन्न प्रकार के आर्थी संबंधों का विश्लेषण किया जाता है। इन आर्थी संबंधों के आधार पर भाषायी अर्थ संबंधी युक्ति को निरूपित करने का प्रयास भी किया जाता है। वर्डनेट, आर्थी-संजाल आदि इसके उदाहरण हैं।
भाषिक इकाइयों का विश्लेषण दो दृष्टियों से किया जा सकता है- व्याकरण और अर्थ। भाषा की आधारभूत इकाई शब्द है। अतः इन दृष्टियों से शब्दों का विश्लेषण आधारभूत रूप से किया जाता है। व्याकरण की दृष्टि से शब्दों में व्याकरणिक सूचनाएँ और उनकी अनुरूपता देखते हैं। इसी प्रकार अर्थ की दृष्टि से शब्दों के आर्थी वर्ग और प्रकार्य देखे जाते हैं। इसके लिए कई पद्धतियाँ विकसित हुई हैं, जैसे-
 (1) आर्थी लक्षण (semantic feature) विश्लेषण पद्धति - आर्थी लक्षण (semantic feature) विश्लेषण पद्धति सर्वाधिक प्रचलित है। इसके अनुसार कुछ आर्थी लक्षणों के समुच्चय निर्मित किए जाते हैं और शब्दों के साथ उनके होने या न होने का विश्लेषण किया जाता है और उसी के अनुसार शब्द का प्रकार्य निर्धारित होता है। किसी लक्षण के होने को ‘+’ और नहीं होने को ‘-’ द्वारा दर्शाया जाता है। उदाहरण के लिए कुछ आर्थी लक्षणों के समुच्चय इस प्रकार बनाए जा सकते हैं-
क्र.सं.
शब्द
आर्थी लक्षण
सजीव
मानव
वस्तु
मूर्त
समूह
1
लड़का
+
+
-
+
-
2
कुर्सी
-
-
+
+
-
3
विचार
-
-
-
-
-
4
समाज
-
+
-
-
+
5
सामान
-
-
+
+
+
वाक्य रचना की दृष्टि से ये लक्षण पदबंध स्तर पर देखे जाते हैं, ताकि उनकी आपसी अनुरूपता का परीक्षण किया जा सके।
इस संबंंध में प्रो. सूरजभान सिंह की 'हिंदी का वाक्यात्मक व्याकरण' पुस्तक में और विस्तार से पढ़ा जा सकता है-

(2) आर्थी संजाल
लिंक-आर्थी संजाल (Semantic Network)
(3) अन्य
..............................
आर्थी संबंध-
·       पर्यायता (Synonymy )
एक अर्थ के लिए एक से अधिक शब्द, जैसे- सूरज, सूर्य, दिनकर, रवि
·       अनेकार्थता (Polysemy)
एक शब्द के एक से अधिक अर्थ, जैसे- कनक- सोना, धतूरा।
·       विलोमता (Antonymy)
परस्पर विपरीतार्थक शब्द, जैसे- रात-दिन, सत्य-असत्य।
·       समनामता ( Homonymy)
एक जैसे दिखने वाले एक से अधिक शब्द, जैसे- आम- (एक फल), आम- (साधारण)।
·       अधिनामिता (Hypernymy)
आर्थी वर्ग की दृष्टि से किसी शब्द के अर्थ का दूसरे शब्द के अर्थ से व्यापक होने का भाव, जैसे-
प्राणी

/|\
जानवर
 /|\
कुत्ता
·       अवनामिता (Hyponymy)
आर्थी वर्ग की दृष्टि से किसी शब्द के अर्थ का दूसरे शब्द के अर्थ से कम व्यापक होने का भाव, जैसे-
 
प्राणी

 \|/
जानवर
 \|/
कुत्ता
·       अंगांगी संबंध (Meronymy)
किसी शब्द का अर्थ दूसरे शब्द के अर्थ का अंग होना, जैसे- शरीर- हाथ।
प्राकृतिक भाषा संसाधन के क्षेत्र में अनेक प्रकार की आर्थी विश्लेषण पद्धतियों का विकास किया गया है, जैसे-
·       formal semantics or statistical semantics
·       knowledge representation
·       lexical semantics
·       Truth-value semantics
·       Minimal recursion semantics

Thursday, February 21, 2019

चंकिंग


चंकिंग
चंकिंग पद-विच्छेदन स्तर की ही प्रक्रिया है। वाक्य में एक प्रकार्य को संपन्न करने वाले पद-समूहों को एक साथ चिह्नित करने की प्रक्रिया चंकिंग है। उस पद-समूह को चंक कहते हैं। यह कंप्यूटरविज्ञान से आई हुई अवधारणा है। कंप्यूटर की दृष्टि से परिभाषित करते हुए कहा गया है कि चंक वह सबसे छोटी इकाई है, जिसे संसाधित किया जा सकता है। सतही पद-विच्छेदन (Shallow Parsing) में वाक्य में एक-एक चंक को ही अलग-अलग किया जाता है। वाक्य में पदबंध ही चंक का कार्य करते हैं।

पद-विच्छेदन (Parsing)



पद-विच्छेदन (Parsing)
किसी वाक्य को उसकी संरचना के अनुसार विश्लेषित करने की प्रक्रिया पद-विच्छेदन है। पद-विच्छेदन के लिए सर्वप्रथम वाक्य की टैगिंग करना आवश्यक होता है। टैगिंग के बाद चंकिंग (पदबंध-चिह्नन) का कार्य किया जाता है। इसके पश्चात पद-विच्छेदित वाक्य निर्मित होता है। अतः इसे क्रमानुसार निम्नलिखित प्रकार से देखा जा सकता है-
वाक्य इनपुट
टैगिंग
चंकिंग
पार्सिंग (पद-विच्छेदन)
चंकिंग वाक्य में पदबंधों को चिह्नित करने की प्रक्रिया है। पदबंधों के अलग-अलग चिह्नित होते ही वाक्य का स्वरूप स्पष्ट होने लगता है। इसी कारण चंकिंग को शैलो-पार्सिंग (सतही पद-विच्छेदन) भी कहा गया है।
पद-विच्छेदन के लिए वाक्य से लेकर टैग तक के नियम सभी स्तरों पर देने होते हैं। जिसे क्रमिक रूप से दर्शाया जाता है। एक पद-विच्छेदित वाक्य को ट्री-डायग्राम के माध्यम से सरलतापूर्वक समझा जा सकता है।

टैग्ड कोड के रूप में इसकी प्रस्तुति इस प्रकार होगी- 
                                                 


पद-विच्छेदन (पार्सिंग) के प्रकार
निम्नलिखित तीन आधारों पर पद-विच्छेदन के प्रकार किए जाते हैं-
(1) दिशा के आधार पर
1.1 बाएँ-से-दाँए पद-विच्छेदन (Left to right-LR Parsing)
1.1 दाँए-से-बाएँ पद-विच्छेदन (Right to Left -RL Parsing)
(2) स्तर/क्रम के आधार
1.1 ऊपर-से-नीचे पद-विच्छेदन (Top Down Parsing)
1.1 नीचे-से-ऊपर पद-विच्छेदन (Bottom-Up Parsing)
(3) गहनता के आधार
1.1 सतही पद-विच्छेदन (Shallow Parsing)

1.1 गहन पद-विच्छेदन (Deep Parsing) 

नामपद : स्वरूप एवं वर्गीकरण


नामपद
वे शब्द जिनसे समस्त संसार की केवल एक ही इकाई का बोध होता हो, नामपद हैं। नामपद व्यक्ति, स्थान या वस्तु विशेष की पहचान के लिए होते हैं। वाक्य में नामपद के रूप में आने वाली शाब्दिक इकाइयाँ व्यक्तिवाचक संज्ञाएँहोती हैं। यदि किसी बहुशब्दीय अभिव्यक्ति द्वारा इस प्रकार की इकाई का निर्माण किया जाता है तो इस प्रकार निर्मित पदबंध संज्ञा पदबंधहोता है। जैसे :
·       मोहन विद्यालय जाता है।
·       वह वर्धा में रहता है।
·       पं. सूर्यकांत त्रिपाठी निराला एक महान कवि हैं।
नामपद के प्रकार-
नामपद के मूलतः तीन प्रकार किए जाते हैं-
·       मानववाची नामपद
·       स्थानवाची नामपद
·       संस्थावाची नामपद
नामपदों का वर्गीकरण-
उपर्युक्त तीन प्रकारों के आधार पर सभी प्रकार के नामपदों का मशीन को संज्ञान करा पाना कठिन है। इसलिए बाह्य संसार में जितने भी प्रकार के नामपद होते हैं, उनका वर्गीकरण उनके प्रकार एवं स्वरूप के आधार पर किया जा सकता है। नामपदों के प्रकारों और वर्गों को मशीनी अनुप्रयोग की दृष्टि से पहचान संक्रम के साथ इस प्रकार से देखा जा सकता है  -
प्रकार
वर्ग
पहचान संक्रम (Identifying syntax)
महीने, दिन
समय
नाम+प्रकार
ग्रह, उपग्रह, तारे
प्राकृतिक पदार्थ
नाम+प्रकार
महाद्वीप, द्वीप, सागर, महासागर
स्थान
नाम+प्रकार
देश, प्रदेश, मंडल, जिला, तहसील, शहर/गाँव/कस्बा, गली/मुहल्ला
स्थान
नाम, प्रकार (+महाद्वीप + क्रमश: छोटी इकाई पर जाते हुए नाम) जैसे: जिला = नाम+प्रदेश+देश
ऐतिहासिक/पर्यटन स्थल
स्थान
नाम+स्थान(शहर/गाँव)+जिला+प्रदेश+देश
संस्था (होटल, चिकित्सालय, मॉल, बैंक, केंद्र)
स्थान
नाम+स्थान(शहर/गाँव)+जिला+प्रदेश+देश
कंपनी

नाम+स्थान(शहर/गाँव)+जिला+प्रदेश+देश (+उत्पाद का प्रक्षेत्र)
पर्वत, पहाड़, चट्टान, पठार, नदी, झील, झरना, तालाब, जंगल, बाग, पार्क
स्थान
नाम+स्थान(शहर/गाँव)+जिला+प्रदेश+देश
सड़क, चौराहा, चौक, क्रासिंग, चट्टी..
स्थान
नाम+स्थान(शहर/गाँव)+जिला+प्रदेश+देश(+प्रकार: स्थानीय, मंडलीय, राष्ट्रीय, अंतरराष्ट्रीय)
सुरंग, पुल, घाट, किनारा, नहर
स्थान
नाम+-स्थान(शहर/गाँव)+जिला+प्रदेश+देश (+प्रकार: स्थानीय, मंडलीय, राष्ट्रीय, अंतरराष्ट्रीय)
रेलवे स्टेशन, बस अड्डा, हवाई अड्डा
स्थान
नाम+स्थान(शहर/गाँव)+जिला+प्रदेश+देश(+प्रकार: स्थानीय, मंडलीय, राष्ट्रीय, अंतरराष्ट्रीय)
रेलगाड़ी
वस्तु
गाड़ी संख्या + नाम +- देश
उत्पाद
वस्तु
नाम+कंपनी नाम+प्रयोग का प्रक्षेत्र
पालतू पशु
पशु
नाम(सर्वाधिक आवृत्ति वाले)+- देश/समाज
देवी/देवता
संकल्पना
नाम+धर्म/mythology +specification
मानव
मानव
पूर्व विशेषक+नाम+मध्यनाम+टाइटल +प्रकार(सर्वाधिक आवृत्ति, प्रसिद्धि : ऐतिहासिक/कवि/विचारक/धार्मिक/प्रशासनिक/वैज्ञानिक) +.पु/स्त्री.

नाम पद : कुछ बिंदु :
(1) नामपदों की एक समस्या संदिग्धार्थकता (ambiguity) के रूप में आती है। जैसे –
भगवान दास (किसी का नाम भी है और ‘god slave’ भी।)
सूरज कुमार घर जा रहे हैं।
(2) कितने शब्दों का होगा –
2.1 एकशब्दीय-
मोहन, सोहन, श्याम
सीता, गीता, सीमा
2.2. बहुशब्दीय-
सूर्यकांत त्रिपाठी निराला
मोहनदास करमचंद गांधी
महात्मा गांधी अंतरराष्ट्रीय हिंदी विश्वविद्यालय
मो. अबुल पाकिर जैनुल अब्दिन अब्दुल कलाम
(एक शब्द से लेकर 10-15 शब्दों तक)
(3) किस प्रकार का नाम पद है –
हजरत निजामुद्दीन – व्यक्ति का नाम या स्टेशन का
(4) नामपद का लिंग–
4.1 पुल्लिंग नाम
मोहन, सुरेश, रमेश, दिवाकर, राजेश
4.2 स्त्रीलिंग नाम
गुड़िया, अनामिका, कंचन, रेखा, शालिनी
4.3 पुल्लिंग/स्त्रीलिंग नाम
कोमल, सरोज, रजत, सोनू, संतोष, बिट्टू

हिंदी मानववाची नामपदों का संरचनात्मक विश्लेषण (नामपद अभिज्ञानक के विशेष संदर्भ में)   21-27
अभिजीत प्रसाद : पी-एच.डी. भाषाविज्ञान एवं भाषा प्रौद्योगिकीम.गां.अं.हिं.वि. वर्धा