पदबंध
चिह्नन (Phrase Marking) और चंकिंग (Chunking)
पदबंध चिह्नन (Phrase
Marking) या चंकिंग (Chunking) पद-विच्छेदन
स्तर की ही प्रक्रिया है। वाक्य में एक प्रकार्य को संपन्न करने वाले पद-समूहों को
एक साथ चिह्नित करने की प्रक्रिया चंकिंग है। उस पद-समूह को चंक कहते हैं। यह
कंप्यूटरविज्ञान से आई हुई अवधारणा है। कंप्यूटर की दृष्टि से परिभाषित करते हुए
कहा गया है कि ‘चंक वह सबसे छोटी इकाई है, जिसे संसाधित किया जा सकता है।’ सतही पद-विच्छेदन (Shallow
Parsing) में वाक्य में एक-एक चंक को ही अलग-अलग किया जाता है।
वाक्य में पदबंध ही चंक का कार्य करते हैं। इसलिए कहा जा सकता है कि
चंकिंग के अंतर्गत ‘पदबंध चिह्नन’ का कार्य किया जाता है। इसके लिए पदबंध स्तर के टैगों (Tags) की आवश्यकता पड़ती है, चंक टैग (chunk tags) कहते हैं, जैसे-
संज्ञा पदबंध = NP
क्रिया पदबंध = VP
परसर्गीय पदबंध = PP
विशेषण पदबंध = JJP
आदि।
पदबंध चिह्नन (Phrase
Marking) या चंकिंग (Chunking) का कार्य टैगिंग
के बाद किया जाता है, क्योंकि जब वाक्य के सभी शब्द टैग कर लिए
जाते हैं तो उनके संयोजन के आधार पर ही पदबंध या चंक निर्धारित किए जाते हैं। उदाहरण
के लिए निम्नलिखित हिंदी वाक्य को देखें-
इनपुट वाक्य-
बड़ा लड़का मीठे आम खाता है।
टैगिंग -
बड़ा<JJ> लड़का<NN> मीठे<JJ> आम<NN> खाता<VM> है<AUX>
।<PM>
पदबंध चिह्नन (Phrase Marking) या चंकिंग (Chunking)-
(NP बड़ा<JJ> लड़का<NN>)
(NP मीठे<JJ> आम<NN>)
(VP खाता<VM> है<AUX>)
(.
।<PM>)
पाइथन प्रोग्रामिंग भाषा में एन.एल.टी.के. (NLTK) का प्रयोग करते हुए एक वाक्य
के पार्स्ड ट्री में बनाए गए चंक इस प्रकार हैं-
No comments:
Post a Comment