Total Pageviews

Friday, November 11, 2016

टैगिंग और टैगसेट (Tagging and Tagset)


टैगिंग (Tagging)
किसी पाठ में आए हुए शब्दों के साथ उनके शब्दवर्ग या रूप-वाक्यीय सूचनाएँ जोड़ना टैगिंग है। आरंभ में शब्दवर्ग संबंधी टैग ही जोड़े जाते थे। इस कारण टैगिंग को शब्दभेद टैगिंग कहा गया, किंतु अब शब्दभेद और प्रकार्य में अंतर के अनुसार अनेक अलग-अलग उपवर्ग भी बनाए जाते हैं। टैगिंग करने के लिए सर्वप्रथम प्रत्येक अलग प्रकार के वर्ग/उपवर्ग के लिए चिह्न निर्मित किया जाता है, जिसे टैग (Tag) कहते हैं, जैसे- जातिवाचक संज्ञा के लिए ‘NN’। टैगों के समुच्चय को टैगसेट (Tagset) कहते हैं।
टैगिंग के लिए एक टैगसेट का होना आवश्यक होता है। प्रत्येक भाषा में कुछ शब्दवर्ग समान होते हैं। अतः उनके टैग एक ही होने चाहिए। किंतु भाषा विशेष में पाए जाने वाले शब्दवर्गों के लिए स्वतंत्र टैग बनाए जा सकते हैं। टैगिंग का आरंभ कार्पस टैगिंग हुआ। पेंसिलवेनिया विश्वविद्यालय द्वारा पेन्न ट्रीबैंक (Penn Treebank) के निर्माण हेतु प्रथम टैगसेट का विकास किया गया था, जो इस प्रकार है-
1.         CC       Coordinating conjunction
2.         CD       Cardinal number
3.         DT       Determiner
4.         EX       Existential there
5.         FW       Foreign word
6.         IN        Preposition or subordinating conjunction
7.         JJ         Adjective
8.         JJR       Adjective, comparative
9.         JJS       Adjective, superlative
10.        LS        List item marker
11.        MD      Modal
12.        NN       Noun, singular or mass
13.        NNS     Noun, plural
14.        NNP     Proper noun, singular
15.        NNPS   Proper noun, plural
16.        PDT     Predeterminer
17.        POS     Possessive ending
18.        PRP      Personal pronoun
19.        PRP$    Possessive pronoun
20.        RB       Adverb
21.        RBR     Adverb, comparative
22.        RBS     Adverb, superlative
23.        RP        Particle
24.        SYM    Symbol
25.        TO       to
26.        UH       Interjection
27.        VB       Verb, base form
28.        VBD    Verb, past tense
29.        VBG    Verb, gerund or present participle
30.        VBN    Verb, past participle
31.        VBP     Verb, non-3rd person singular present
32.        VBZ     Verb, 3rd person singular present
33.        WDT    Wh-determiner
34.        WP       Wh-pronoun
35.        WP$     Possessive wh-pronoun
36.        WRB    Wh-adverb

हिंदी के लिए IIIT, हैदराबाद और CIIL , मैसूर द्वारा टैगसेट बनाए गए हैं। एक सामान्य हिंदी टैगसेट इस प्रकार हो सकता है- 

टैग
शब्दवर्ग नाम
हिंदी नाम
उदाहरण
NNP
Proper noun
व्यक्तिवाचक संज्ञा
राम, मोहन
NN
Common noun
जातिवाचक संज्ञा
लड़का, छाता
PR
Pronoun
सर्वनाम
वह, तुम
DT
Determiner
निर्धारक
यह, वह
VM
Verb Main
मुख्य क्रिया
जाना, खाता
JJ
Adjective
विशेषण
सुंदर, बुरा
RB
Adverb
क्रियाविशेषण
तेज, धीमा
QW
Question word
प्रश्नवाचक शब्द
क्या, कौन
UH
Interjection
विस्मयादिबोधक
ओह, आह
PP
Postposition
परसर्ग
ने, को
PT
Particle
निपात
ही, भी
NW
Negation word
नकारात्मक शब्द
, नहीं
DE
Date entity
दिनांक पद
20/2/2014, 20 फर. 2014
NM
Number
संख्या
01, 23785
CR
Currency
मुद्रा
$
TE
Time entity
समय पद
12:13, 01:23 PM
PM
Punctuation mark
विराम चिह्न
;
LS
Listing
सूचीकरण
1. 2.
CC
Conjunction
संयोजक
और, किंतु
PW
Postpositional word
परसर्गीय शब्द
बाद, पहले
VAX
Verb Auxiliary
सहायक क्रिया
है, था
VAS
Verb Aspectual
पक्षात्मक क्रिया
रहा, चुका
VEX
Verb Explicator
रंजक क्रिया
चल दिया, कर बैठा
CH
character
वर्ण
,
PRP
Reflexive Pronoun
स्ववाची सर्वनाम
अपना, खुद
SFW
Suffix Word
प्रत्ययात्मक शब्द
वाला, कर
CW
Compound Word
सामासिक शब्द
माता-पिता, रूप-निर्माण
DW
Duplicative Word
द्विरुक्त शब्द
पहला-पहला, चलते-चलते
किसी पाठ की टैगिंग में पाठ में आए हुए शब्दों के साथ उनके टैग कई प्रकार से जोड़े जा सकते हैं, जैसे-
उन<DEM> दिनों<NN> नील<NNP> नदी<NN> के<PP> तट<NN> पर<PP> बहुत<JJ> से<PP> तपस्वी<NN> रहा<VM> करते<VM> थे।<VAX>
उन_DEM  दिनों_NN नील_NNP नदी_NN के_PP तट_NN पर_PP बहुत_JJ से_PP तपस्वी_NN रहा_VM करते_VM थे।_VAX>
उन\DEM  दिनों\NN नील\NNP नदी\NN के\PP तट\NN पर\PP बहुत\JJ से\PP तपस्वी\NN रहा\VM करते\VM थे।\VAX>
उन| DEM  दिनों| NN नील| NNP नदी| NN के| PP तट| NN पर| PP बहुत| JJ से| PP तपस्वी| NN रहा| VM करते| VM थे।| VAX>
इसी प्रकार टैग संबंधी सामान्य पाठ की तरह भी हो सकती हैं और प्रत्येक शब्द के साथ अलग-अलग भी, जैसे-
उन_DEM 
दिनों_NN
नील_NNP
नदी_NN
के_PP
तट_NN
पर_PP
बहुत_JJ
से_PP
 तपस्वी_NN
रहा_VM
करते_VM
थे।_VAX>
एक टैग किए हुए पाठ का आउटपुट इस प्रकार होता है-

<p> उन<DEM> दिनों<NN> नील<NNP> नदी<NN> के<PP> तट<NN> पर<PP> बहुत<JJ> से<PP> तपस्वी<NN> रहा<VM> करते<VM> थे।<VAX> दोनों<JJ> ही<PT> किनारों<NN> पर<PP> कितनी<QW> ही<PT> झोपड़ियाँ<NN> थोड़ी-थोड़ी<JJ> दूर<RB> पर<PP> बनी<VM> हुई<VM> थीं।<VAX> तपस्वी<NN> लोग<NN> इन्हीं<DEM> में<PP> एकांतवास<NN> करते<VM> थे<VAX> और<CC> जरूरत<NN> पड़ने<VM> पर<PP> एक-दूसरे<PRP> की<PP> सहायता<NN> करते<VM> थे।<VAX> इन्हीं<DEM> झोंपड़ियों<NN> के<PP> बीच<PW> में<PP> जहाँ-तहाँ<RB> गिरजे<NN> बने<VM> हुए<VM> थे।<VAX> प्रायः<RB> सभी<JJ> गिरजाघरों<NN> पर<PP> सलीब<NN> का<PP> आकार<NN> दिखाई<VM> देता<VEX> था।<VAX> धर्मोत्सवों<NN> पर<PP> साधूसंत<NN> दूर-दूर<RB> से<PP> वहाँ<CC> <VM> जाते<VEX> थे।<VAX> नदी<NN> के<PP> किनारे<NN> जहाँ-तहाँ<RB> मठ<NN> भी<PT> थे।<VAX> जहाँ<CC> तपस्वी<NN> लोग<NN> अकेले<JJ> छोटी-छोटी<JJ> गुफाओं<NN> में<PP> सिद्धि<NN> प्राप्त<JJ> करने<VM> का<PP> यत्न<NN> करते<VM> थे।<VAX> </p>

No comments:

Post a Comment