टैगिंग (Tagging)
किसी पाठ में आए हुए
शब्दों के साथ उनके शब्दवर्ग या रूप-वाक्यीय सूचनाएँ जोड़ना टैगिंग है। आरंभ में
शब्दवर्ग संबंधी टैग ही जोड़े जाते थे। इस कारण टैगिंग को शब्दभेद टैगिंग कहा गया, किंतु अब शब्दभेद और प्रकार्य में अंतर के
अनुसार अनेक अलग-अलग उपवर्ग भी बनाए जाते हैं। टैगिंग करने के लिए सर्वप्रथम
प्रत्येक अलग प्रकार के वर्ग/उपवर्ग के लिए चिह्न निर्मित किया जाता है, जिसे टैग (Tag) कहते हैं, जैसे- जातिवाचक संज्ञा के लिए ‘NN’। टैगों के समुच्चय को टैगसेट (Tagset) कहते हैं।
टैगिंग के लिए एक टैगसेट
का होना आवश्यक होता है। प्रत्येक भाषा में कुछ शब्दवर्ग समान होते हैं। अतः उनके
टैग एक ही होने चाहिए। किंतु भाषा विशेष में पाए जाने वाले शब्दवर्गों के लिए
स्वतंत्र टैग बनाए जा सकते हैं। टैगिंग का आरंभ कार्पस टैगिंग हुआ। पेंसिलवेनिया
विश्वविद्यालय द्वारा पेन्न ट्रीबैंक (Penn Treebank) के निर्माण हेतु प्रथम टैगसेट का विकास किया
गया था, जो इस प्रकार है-
1. CC Coordinating conjunction
2. CD Cardinal number
3. DT Determiner
4. EX Existential there
5. FW Foreign word
6. IN Preposition or subordinating conjunction
7. JJ Adjective
8. JJR Adjective, comparative
9. JJS Adjective, superlative
10. LS List item marker
11. MD Modal
12. NN Noun, singular or mass
13. NNS Noun, plural
14. NNP Proper noun, singular
15. NNPS Proper noun, plural
16. PDT Predeterminer
17. POS Possessive ending
18. PRP Personal pronoun
19. PRP$ Possessive pronoun
20. RB Adverb
21. RBR Adverb, comparative
22. RBS Adverb, superlative
23. RP Particle
24. SYM Symbol
25. TO to
26. UH Interjection
27. VB Verb, base form
28. VBD Verb, past tense
29. VBG Verb, gerund or present participle
30. VBN Verb, past participle
31. VBP Verb, non-3rd person
singular present
32. VBZ Verb, 3rd person
singular present
33. WDT Wh-determiner
34. WP Wh-pronoun
35. WP$ Possessive wh-pronoun
36. WRB Wh-adverb
हिंदी के लिए IIIT, हैदराबाद और CIIL , मैसूर द्वारा टैगसेट बनाए गए हैं। एक सामान्य हिंदी टैगसेट इस प्रकार हो
सकता है-
टैग
|
शब्दवर्ग नाम
|
हिंदी नाम
|
उदाहरण
|
NNP
|
Proper noun
|
व्यक्तिवाचक संज्ञा
|
राम, मोहन
|
NN
|
Common noun
|
जातिवाचक संज्ञा
|
लड़का, छाता
|
PR
|
Pronoun
|
सर्वनाम
|
वह, तुम
|
DT
|
Determiner
|
निर्धारक
|
यह, वह
|
VM
|
Verb Main
|
मुख्य क्रिया
|
जाना, खाता
|
JJ
|
Adjective
|
विशेषण
|
सुंदर, बुरा
|
RB
|
Adverb
|
क्रियाविशेषण
|
तेज, धीमा
|
QW
|
Question word
|
प्रश्नवाचक शब्द
|
क्या, कौन
|
UH
|
Interjection
|
विस्मयादिबोधक
|
ओह, आह
|
PP
|
Postposition
|
परसर्ग
|
ने, को
|
PT
|
Particle
|
निपात
|
ही, भी
|
NW
|
Negation word
|
नकारात्मक शब्द
|
न, नहीं
|
DE
|
Date entity
|
दिनांक पद
|
20/2/2014, 20 फर. 2014
|
NM
|
Number
|
संख्या
|
01, 23785
|
CR
|
Currency
|
मुद्रा
|
$
|
TE
|
Time entity
|
समय पद
|
12:13, 01:23 PM
|
PM
|
Punctuation mark
|
विराम चिह्न
|
; ‘
|
LS
|
Listing
|
सूचीकरण
|
1.
2.
|
CC
|
Conjunction
|
संयोजक
|
और, किंतु
|
PW
|
Postpositional word
|
परसर्गीय शब्द
|
बाद, पहले
|
VAX
|
Verb Auxiliary
|
सहायक क्रिया
|
है, था
|
VAS
|
Verb Aspectual
|
पक्षात्मक क्रिया
|
रहा, चुका
|
VEX
|
Verb Explicator
|
रंजक क्रिया
|
चल दिया, कर बैठा
|
CH
|
character
|
वर्ण
|
अ, क
|
PRP
|
Reflexive Pronoun
|
स्ववाची सर्वनाम
|
अपना, खुद
|
SFW
|
Suffix Word
|
प्रत्ययात्मक शब्द
|
वाला, कर
|
CW
|
Compound Word
|
सामासिक शब्द
|
माता-पिता, रूप-निर्माण
|
DW
|
Duplicative Word
|
द्विरुक्त शब्द
|
पहला-पहला, चलते-चलते
|
किसी पाठ की टैगिंग में पाठ
में आए हुए शब्दों के साथ उनके टैग कई प्रकार से जोड़े जा सकते हैं, जैसे-
उन<DEM> दिनों<NN> नील<NNP> नदी<NN> के<PP>
तट<NN> पर<PP> बहुत<JJ> से<PP> तपस्वी<NN>
रहा<VM> करते<VM> थे।<VAX>
उन_DEM दिनों_NN नील_NNP नदी_NN
के_PP तट_NN पर_PP
बहुत_JJ से_PP तपस्वी_NN
रहा_VM करते_VM थे।_VAX>
उन\DEM दिनों\NN नील\NNP नदी\NN
के\PP तट\NN पर\PP
बहुत\JJ से\PP तपस्वी\NN
रहा\VM करते\VM थे।\VAX>
उन| DEM दिनों| NN नील| NNP नदी|
NN के| PP तट| NN पर|
PP बहुत| JJ से| PP तपस्वी|
NN रहा| VM करते| VM थे।|
VAX>
इसी प्रकार टैग संबंधी
सामान्य पाठ की तरह भी हो सकती हैं और प्रत्येक शब्द के साथ अलग-अलग भी, जैसे-
उन_DEM
दिनों_NN
नील_NNP
नदी_NN
के_PP
तट_NN
पर_PP
बहुत_JJ
से_PP
तपस्वी_NN
रहा_VM
करते_VM
थे।_VAX>
एक टैग किए हुए पाठ का
आउटपुट इस प्रकार होता है-
<p> उन<DEM>
दिनों<NN> नील<NNP> नदी<NN> के<PP> तट<NN>
पर<PP> बहुत<JJ> से<PP> तपस्वी<NN> रहा<VM> करते<VM> थे।<VAX>
दोनों<JJ> ही<PT> किनारों<NN> पर<PP> कितनी<QW> ही<PT> झोपड़ियाँ<NN>
थोड़ी-थोड़ी<JJ> दूर<RB> पर<PP> बनी<VM> हुई<VM>
थीं।<VAX> तपस्वी<NN> लोग<NN> इन्हीं<DEM> में<PP> एकांतवास<NN> करते<VM> थे<VAX> और<CC>
जरूरत<NN> पड़ने<VM> पर<PP> एक-दूसरे<PRP> की<PP> सहायता<NN> करते<VM> थे।<VAX> इन्हीं<DEM> झोंपड़ियों<NN> के<PP> बीच<PW> में<PP>
जहाँ-तहाँ<RB> गिरजे<NN> बने<VM> हुए<VM> थे।<VAX>
प्रायः<RB> सभी<JJ> गिरजाघरों<NN> पर<PP> सलीब<NN> का<PP> आकार<NN>
दिखाई<VM> देता<VEX> था।<VAX> धर्मोत्सवों<NN> पर<PP> साधूसंत<NN> दूर-दूर<RB> से<PP> वहाँ<CC> आ<VM> जाते<VEX>
थे।<VAX> नदी<NN> के<PP> किनारे<NN> जहाँ-तहाँ<RB> मठ<NN> भी<PT> थे।<VAX> जहाँ<CC>
तपस्वी<NN> लोग<NN> अकेले<JJ> छोटी-छोटी<JJ> गुफाओं<NN> में<PP> सिद्धि<NN> प्राप्त<JJ> करने<VM> का<PP> यत्न<NN>
करते<VM> थे।<VAX>
</p>
No comments:
Post a Comment