कार्पस एनोटेशन (Corpus Annotation)
किसी
कार्पस के आए शब्दों, वाक्यों अथवा पाठों में आवश्यक भाषावैज्ञानिक
सूचनाएँ जोड़ना कार्पस एनोटेशन कहलाता है।
टैग
किया हुआ या एनोटेट किया हुआ कार्पस ‘ट्रीबैंक’
(Treebank) कहलाता है।
कार्पस
एनोटेशन के अंतर्गत निम्नलिखित प्रकार के कार्य आते हैं-
(1) टैगिंग (Tagging)
पाठ
या कार्पस के शब्दों के साथ टैग (Tag) जोड़ना। इसके लिए सबसे पहले एक टैगसेट (Tagset)
लेते हैं, जिनमें टैग संबंधी विवरण होता है,
जैसे-
टैग |
शब्दवर्ग नाम |
हिंदी नाम |
उदाहरण |
NNP |
Proper noun |
व्यक्तिवाचक संज्ञा |
राम, मोहन |
NN |
Common noun |
जातिवाचक संज्ञा |
लड़का, छाता |
PR |
Pronoun |
सर्वनाम |
वह, तुम |
DT |
Determiner |
निर्धारक |
यह, वह |
VM |
Verb Main |
मुख्य क्रिया |
जाना, खाता |
JJ |
Adjective |
विशेषण |
सुंदर, बुरा |
संदर्भ- टैगिंग
और टैगसेट (Tagging and Tagset)
टैगिंग उदाहरण-
वाक्य |
टैग्ड वाक्य |
राम आम खाता है |
राम\NNP
आम\NN खाता\VM
है\VAX |
लड़का अपने घर जा चुका है |
लड़का\NN
अपने\PRP
घर\NN जा\VM
चुका\VAS
है\VAX |
तुम बाजार जाओ |
तुम\PR
बाजार\NN
जाओ\VM |
(2) रूपिमिक एनोटेशन (Morphological Annotation)
शब्दों
के साथ रूपवैज्ञानिक सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती
हैं-
§ शब्दभेद या शब्दवर्ग (POS)
(टैग)
§ व्याकरणिक कोटियों से संबंधित सूचनाएँ- [लिंग (Gender-G),
वचन (Number-N), पुरुष
(Person-P), काल (Tense-T),
पक्ष (Aspect-A), वृत्ति
(Mood-M), कारक (Case-C),
वाच्य (Voice-V]
उदाहरण-
वह<WC-सर्वनाम/निर्देशक| G-पुल्लिंग/स्त्रीलिंग
|N-एकवचन | P- अन्य|
लड़का<WC-संज्ञा| G-पुल्लिंग| N-एकवचन>
बाहर<WC-क्रियाविशेषण| मुक्त>
बैठा<WC-क्रिया| G-पुल्लिंग| N-एकवचन|
P-प्रथम,मध्यम(तू),अन्य|
T-भूत| >
बैठा<WC-क्रिया (धातु)| मुक्त>
है<WC-सहायक क्रिया| G-दोनों| N-एकवचन|
P-मध्यम(तू)अन्य| T-वर्तमान| >
जो<WC-सर्वनाम| मुक्त>
कल<WC-क्रियाविशेषण| मुक्त>
कल<WC-संज्ञा| G-पुल्लिंग| N-एकवचन>
आया<WC-क्रिया| G-पुल्लिंग| N-एकवचन|
P-प्रथम,मध्यम(तू),अन्य|
T-भूत| >
था<WC-सहायक
क्रिया| G-पुल्लिंग| N-एकवचन|
P-प्रथम,मध्यम(तू),अन्य|
T-भूत| >
शब्द-निर्माण (Word
Formation/Derivation) की दृष्टि से भी रूपिमिक एनोटेशन किया जा सकता
है, जिसमें शब्दों के साथ मूल, उपसर्ग युक्त, प्रत्यय युक्त, उपसर्ग-प्रत्यय युक्त, सामासिक, द्विरुक्त जैसी सूचनाएँ दी जा सकती हैं, जैसे-
वह मानवता वाला दरिया-दिल आदमी है, अमानव का नहीं।
वह :
मूल
मानवता :
प्रत्यय युक्त
वाला :
मूल
दरिया-दिल :
सामासिक
आदमी :
मूल
है, : मूल
अमानव :
उपसर्ग युक्त
का :
मूल
नहीं। : मूल
(3) वाक्यात्मक एनोटेशन (Syntactic Annotation)
शब्दों
के साथ वाक्यवैज्ञानिक सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती
हैं-
§ पदबंध चिह्नन (Phrase Marking/Chunking)
§ पद-विच्छेदन
(Parsing) (वाक्य को उसकी रचना के अनुसार
प्रस्तुत करना)
पदबंध चिह्नित वाक्यों
का उदाहरण-
उसने राम के बारे में पूछा |
<उसने>NP <राम के बारे में>NP <पूछा>VP |
वहाँ मोहन के अलावा सभी लोग थे |
वहाँ<CCP> मोहन के अलावा >NP <सभी लोग>NP <थे>VPc |
मेज के बगल में चाय है |
<मेज
के बगल में>NP <चाय>NP
<है>VPc |
उसने बहुत अच्छे घड़े से ही पानी निकाला |
<उसने>NP <बहुत अच्छे
घड़े से ही>NP
<पानी>NP <निकाला>VP |
उसने बहुत अच्छे घड़े में से पानी निकाला |
<उसने>NP <बहुत अच्छे
घड़े में से>NP <पानी>NP <निकाला>VP |
पद-विच्छेदित वाक्य
का उदाहरण-
<Sentence
id='1'>
1 (( NP <fs drel='k7p:VGF' name='NP'>
1.1 बिहार NNP <fs
af='बिहार,n,m,sg,3,o,0,0' name='बिहार' posn='10'>
1.2 में PSP <fs
af='में,psp,,,,,,' name='में' posn='20'>
))
2 (( NP <fs drel='r6:NP3' name='NP2'>
2.1 विधानसभा NNC <fs
af='विधानसभा,n,f,sg,3,d,0,0' name='विधानसभा' posn='30'>
2.2 चुनाव NNC <fs
af='चुनाव,n,m,sg,3,d,0,0' name='चुनाव' posn='40'>
2.3 कार्यक्रम NN <fs
af='कार्यक्रम,n,m,sg,3,o,0,0' name='कार्यक्रम' posn='50'>
2.4 की PSP <fs
af='का,psp,f,sg,,o,,' name='की' posn='60'>
))
3 (( NP <fs drel='rt:VGF' name='NP3'>
3.1 घोषणा NN <fs
af='घोषणा,n,f,sg,3,o,0,0' name='घोषणा' posn='70'>
3.2 के PSP <fs
af='के,psp,,,,,,' name='के' posn='80'>
3.3 लिए PSP <fs
af='लिए,psp,,,,,,' name='लिए' posn='90'>
))
4 (( NP <fs drel='pk1:VGF' name='NP4'>
4.1 सुप्रीम NNPC <fs
af='सुप्रीम,unk,,,,,,' name='सुप्रीम' posn='100'>
4.2 कोर्ट NNP <fs
af='कोर्ट,n,m,sg,3,o,0,0' name='कोर्ट' posn='110'>
4.3 ने PSP <fs
af='ने,psp,,,,,,' name='ने' posn='120'>
))
5 (( NP <fs drel='jk1:VGF' name='NP5'>
5.1 निर्वाचन NNC <fs
af='निर्वाचन,n,m,sg,3,d,0,0' name='निर्वाचन' posn='130'>
5.2 आयोग NN <fs
af='आयोग,n,m,sg,3,o,0,0' name='आयोग' posn='140'>
5.3 को PSP <fs
af='को,psp,,,,,,' name='को' posn='150'>
))
6 (( NP <fs drel='adv:VGF' name='NP6'>
6.1 एक QC <fs
af='एक,num,any,any,,any,,' name='एक' posn='160'>
6.2 तरह NN <fs
af='तरह,n,f,sg,3,o,0,0' name='तरह' posn='170'>
6.3 से PSP <fs
af='से,psp,,,,,,s' name='से' posn='180'>
))
7 (( NP <fs drel='k2:VGF' name='NP7'>
7.1 हरी JJ <fs
af='हरी,adj,any,any,,d,,' name='हरी' posn='190'>
7.2 झंडी NN <fs
af='झंडी,n,f,sg,3,d,0,0' name='झंडी' posn='200'>
))
8 (( VGF <fs voicetype='active'
stype='declarative' name='VGF'>
8.1 दिखा VM <fs
af='दिखा,v,any,any,any,,0,0' name='दिखा' posn='210'>
8.2 दी VAUX <fs
af='दे,v,f,sg,3,,या,yA' name='दी' posn='220'>
8.3 है VAUX <fs
af='है,v,any,sg,3,,है,hE' name='है' posn='230'>
8.4 . SYM <fs af='.,punc,,,,,,' name='.'
posn='240'>
))
</Sentence>
(संदर्भ- एल.टी.आर.सी.,
IIIT, हैदराबाद)
(4) प्रोक्ति स्तरीय
एनोटेशन (Discourse level
Annotation)
शब्दों के साथ प्रोक्ति
संबंधी सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती हैं-
§ अन्वादेश
(Anaphora), पूर्वादेश (Cataphora),
संदर्भ अभिव्यक्तियाँ (Referential
Expressions) आदि।
(5) आर्थी एनोटेशन (Semantic Annotation)
शब्दों के साथ अर्थवैज्ञानिक
सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती हैं-
§ अधिनामी-अवनामी
§ पर्याय-विलोम आदि।
No comments:
Post a Comment