टैगिंग (Tagging)
किसी पाठ में आए हुए
शब्दों के साथ उनके शब्दवर्ग या रूप-वाक्यीय सूचनाएँ जोड़ना टैगिंग है। आरंभ में
शब्दवर्ग संबंधी टैग ही जोड़े जाते थे। इस कारण टैगिंग को शब्दभेद टैगिंग कहा गया, किंतु अब शब्दभेद और प्रकार्य में अंतर के
अनुसार अनेक अलग-अलग उपवर्ग भी बनाए जाते हैं। टैगिंग करने के लिए सर्वप्रथम
प्रत्येक अलग प्रकार के वर्ग/उपवर्ग के लिए चिह्न निर्मित किया जाता है, जिसे टैग (Tag) कहते हैं, जैसे- जातिवाचक संज्ञा के लिए ‘NN’। टैगों के समुच्चय को टैगसेट (Tagset) कहते हैं।
टैगिंग के लिए एक टैगसेट
का होना आवश्यक होता है। प्रत्येक भाषा में कुछ शब्दवर्ग समान होते हैं। अतः उनके
टैग एक ही होने चाहिए। किंतु भाषा विशेष में पाए जाने वाले शब्दवर्गों के लिए
स्वतंत्र टैग बनाए जा सकते हैं। टैगिंग का आरंभ कार्पस टैगिंग हुआ। पेंसिलवेनिया
विश्वविद्यालय द्वारा पेन्न ट्रीबैंक (Penn Treebank) के निर्माण हेतु प्रथम टैगसेट का विकास किया
गया था, जो इस प्रकार है- 
1.         CC       Coordinating conjunction
2.         CD       Cardinal number
3.         DT       Determiner
4.         EX       Existential there
5.         FW       Foreign word
6.         IN        Preposition or subordinating conjunction
7.         JJ         Adjective
8.         JJR       Adjective, comparative
9.         JJS       Adjective, superlative
10.        LS        List item marker
11.        MD      Modal
12.        NN       Noun, singular or mass
13.        NNS     Noun, plural
14.        NNP     Proper noun, singular
15.        NNPS   Proper noun, plural
16.        PDT     Predeterminer
17.        POS     Possessive ending
18.        PRP      Personal pronoun
19.        PRP$    Possessive pronoun
20.        RB       Adverb
21.        RBR     Adverb, comparative
22.        RBS     Adverb, superlative
23.        RP        Particle
24.        SYM    Symbol
25.        TO       to
26.        UH       Interjection
27.        VB       Verb, base form
28.        VBD    Verb, past tense
29.        VBG    Verb, gerund or present participle
30.        VBN    Verb, past participle
31.        VBP     Verb, non-3rd person
singular present
32.        VBZ     Verb, 3rd person
singular present
33.        WDT    Wh-determiner
34.        WP       Wh-pronoun
35.        WP$     Possessive wh-pronoun
36.        WRB    Wh-adverb
हिंदी के लिए IIIT, हैदराबाद और CIIL , मैसूर द्वारा टैगसेट बनाए गए हैं। एक सामान्य हिंदी टैगसेट इस प्रकार हो
सकता है- 
| 
टैग | 
शब्दवर्ग नाम | 
हिंदी नाम | 
उदाहरण | 
| 
NNP | 
Proper noun | 
व्यक्तिवाचक संज्ञा | 
राम, मोहन | 
| 
NN | 
Common noun | 
जातिवाचक संज्ञा | 
लड़का, छाता | 
| 
PR | 
Pronoun | 
सर्वनाम | 
वह, तुम | 
| 
DT | 
Determiner | 
निर्धारक | 
यह, वह | 
| 
VM | 
Verb Main | 
मुख्य क्रिया  | 
जाना, खाता | 
| 
JJ | 
Adjective | 
विशेषण | 
सुंदर, बुरा | 
| 
RB  | 
Adverb | 
क्रियाविशेषण | 
तेज, धीमा | 
| 
QW | 
Question word | 
प्रश्नवाचक शब्द | 
क्या, कौन | 
| 
UH | 
Interjection | 
विस्मयादिबोधक | 
ओह, आह | 
| 
PP | 
Postposition | 
परसर्ग | 
ने, को | 
| 
PT | 
Particle | 
निपात | 
ही, भी | 
| 
NW | 
Negation word | 
नकारात्मक शब्द | 
न, नहीं | 
| 
DE | 
Date entity | 
दिनांक पद | 
20/2/2014, 20 फर. 2014 | 
| 
NM | 
Number | 
संख्या | 
01, 23785 | 
| 
CR | 
Currency | 
मुद्रा | 
$ | 
| 
TE | 
Time entity | 
समय पद | 
12:13, 01:23 PM | 
| 
PM | 
Punctuation mark | 
विराम चिह्न | 
; ‘ | 
| 
LS | 
Listing | 
सूचीकरण  | 
1.
  2.  | 
| 
CC | 
Conjunction | 
संयोजक | 
और, किंतु | 
| 
PW | 
Postpositional word | 
परसर्गीय शब्द | 
बाद, पहले | 
| 
VAX | 
Verb Auxiliary | 
सहायक क्रिया | 
है, था | 
| 
VAS | 
Verb Aspectual | 
पक्षात्मक क्रिया | 
रहा, चुका | 
| 
VEX | 
Verb Explicator | 
रंजक क्रिया | 
चल दिया, कर बैठा | 
| 
CH | 
character | 
वर्ण | 
अ, क | 
| 
PRP | 
Reflexive Pronoun | 
स्ववाची सर्वनाम | 
अपना, खुद | 
| 
SFW | 
Suffix Word  | 
प्रत्ययात्मक शब्द | 
वाला, कर | 
| 
CW | 
Compound Word | 
सामासिक शब्द | 
माता-पिता, रूप-निर्माण | 
| 
DW | 
Duplicative Word | 
द्विरुक्त शब्द | 
पहला-पहला, चलते-चलते | 
किसी पाठ की टैगिंग में पाठ
में आए हुए शब्दों के साथ उनके टैग कई प्रकार से जोड़े जा सकते हैं, जैसे- 
उन<DEM> दिनों<NN> नील<NNP> नदी<NN> के<PP>
तट<NN> पर<PP> बहुत<JJ> से<PP> तपस्वी<NN>
रहा<VM> करते<VM> थे।<VAX>
उन_DEM  दिनों_NN नील_NNP नदी_NN
के_PP तट_NN पर_PP
बहुत_JJ से_PP तपस्वी_NN
रहा_VM करते_VM थे।_VAX>
उन\DEM  दिनों\NN नील\NNP नदी\NN
के\PP तट\NN पर\PP
बहुत\JJ से\PP तपस्वी\NN
रहा\VM करते\VM थे।\VAX>
उन| DEM  दिनों| NN नील| NNP नदी|
NN के| PP तट| NN पर|
PP बहुत| JJ से| PP तपस्वी|
NN रहा| VM करते| VM थे।|
VAX>
इसी प्रकार टैग संबंधी
सामान्य पाठ की तरह भी हो सकती हैं और प्रत्येक शब्द के साथ अलग-अलग भी, जैसे-
उन_DEM  
दिनों_NN 
नील_NNP
नदी_NN 
के_PP 
तट_NN 
पर_PP 
बहुत_JJ 
से_PP
 तपस्वी_NN
रहा_VM 
करते_VM 
थे।_VAX>
एक टैग किए हुए पाठ का
आउटपुट इस प्रकार होता है- 
<p> उन<DEM>
दिनों<NN> नील<NNP> नदी<NN> के<PP> तट<NN>
पर<PP> बहुत<JJ> से<PP> तपस्वी<NN> रहा<VM> करते<VM> थे।<VAX>
दोनों<JJ> ही<PT> किनारों<NN> पर<PP> कितनी<QW> ही<PT> झोपड़ियाँ<NN>
थोड़ी-थोड़ी<JJ> दूर<RB> पर<PP> बनी<VM> हुई<VM>
थीं।<VAX> तपस्वी<NN> लोग<NN> इन्हीं<DEM> में<PP> एकांतवास<NN> करते<VM> थे<VAX> और<CC>
जरूरत<NN> पड़ने<VM> पर<PP> एक-दूसरे<PRP> की<PP> सहायता<NN> करते<VM> थे।<VAX> इन्हीं<DEM> झोंपड़ियों<NN> के<PP> बीच<PW> में<PP>
जहाँ-तहाँ<RB> गिरजे<NN> बने<VM> हुए<VM> थे।<VAX>
प्रायः<RB> सभी<JJ> गिरजाघरों<NN> पर<PP> सलीब<NN> का<PP> आकार<NN>
दिखाई<VM> देता<VEX> था।<VAX> धर्मोत्सवों<NN> पर<PP> साधूसंत<NN> दूर-दूर<RB> से<PP> वहाँ<CC> आ<VM> जाते<VEX>
थे।<VAX> नदी<NN> के<PP> किनारे<NN> जहाँ-तहाँ<RB> मठ<NN> भी<PT> थे।<VAX> जहाँ<CC>
तपस्वी<NN> लोग<NN> अकेले<JJ> छोटी-छोटी<JJ> गुफाओं<NN> में<PP> सिद्धि<NN> प्राप्त<JJ> करने<VM> का<PP> यत्न<NN>
करते<VM> थे।<VAX>
</p>
 
 
 
No comments:
Post a Comment