कार्पस एनोटेशन (Corpus Annotation)
किसी
कार्पस के आए शब्दों, वाक्यों अथवा पाठों में आवश्यक भाषावैज्ञानिक
सूचनाएँ जोड़ना कार्पस एनोटेशन कहलाता है। 
टैग
किया हुआ या एनोटेट किया हुआ कार्पस ‘ट्रीबैंक’
(Treebank) कहलाता है।
कार्पस
एनोटेशन के अंतर्गत निम्नलिखित प्रकार के कार्य आते हैं- 
(1) टैगिंग (Tagging)
पाठ
या कार्पस के शब्दों के साथ टैग (Tag) जोड़ना। इसके लिए सबसे पहले एक टैगसेट (Tagset)
लेते हैं, जिनमें टैग संबंधी विवरण होता है,
जैसे- 
| टैग | शब्दवर्ग नाम | हिंदी नाम | उदाहरण | 
| NNP | Proper noun | व्यक्तिवाचक संज्ञा | राम, मोहन | 
| NN | Common noun | जातिवाचक संज्ञा | लड़का, छाता | 
| PR | Pronoun | सर्वनाम | वह, तुम | 
| DT | Determiner | निर्धारक | यह, वह | 
| VM | Verb Main | मुख्य क्रिया | जाना, खाता | 
| JJ | Adjective | विशेषण | सुंदर, बुरा | 
संदर्भ- टैगिंग
और टैगसेट (Tagging and Tagset)
टैगिंग उदाहरण- 
| वाक्य | टैग्ड वाक्य | 
| राम आम खाता है | राम\NNP
  आम\NN खाता\VM
  है\VAX | 
| लड़का अपने घर जा चुका है | लड़का\NN
  अपने\PRP
  घर\NN जा\VM
  चुका\VAS
  है\VAX | 
| तुम बाजार जाओ | तुम\PR
  बाजार\NN
  जाओ\VM | 
(2) रूपिमिक एनोटेशन (Morphological Annotation)
शब्दों
के साथ रूपवैज्ञानिक सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती
हैं- 
§  शब्दभेद या शब्दवर्ग (POS)
(टैग)
§  व्याकरणिक कोटियों से संबंधित सूचनाएँ- [लिंग (Gender-G),
वचन (Number-N), पुरुष
(Person-P), काल (Tense-T),
पक्ष (Aspect-A), वृत्ति
(Mood-M), कारक (Case-C),
वाच्य (Voice-V]
उदाहरण- 
वह<WC-सर्वनाम/निर्देशक| G-पुल्लिंग/स्त्रीलिंग
|N-एकवचन | P- अन्य|
लड़का<WC-संज्ञा| G-पुल्लिंग| N-एकवचन>
बाहर<WC-क्रियाविशेषण| मुक्त>
बैठा<WC-क्रिया| G-पुल्लिंग| N-एकवचन|
P-प्रथम,मध्यम(तू),अन्य|
T-भूत| >
बैठा<WC-क्रिया (धातु)| मुक्त>
है<WC-सहायक क्रिया| G-दोनों| N-एकवचन|
P-मध्यम(तू)अन्य| T-वर्तमान| >
जो<WC-सर्वनाम| मुक्त>
कल<WC-क्रियाविशेषण| मुक्त>
कल<WC-संज्ञा| G-पुल्लिंग| N-एकवचन>
आया<WC-क्रिया| G-पुल्लिंग| N-एकवचन|
P-प्रथम,मध्यम(तू),अन्य|
T-भूत| >
था<WC-सहायक
क्रिया| G-पुल्लिंग| N-एकवचन|
P-प्रथम,मध्यम(तू),अन्य|
T-भूत| >
शब्द-निर्माण (Word
Formation/Derivation) की दृष्टि से भी रूपिमिक एनोटेशन किया जा सकता
है, जिसमें शब्दों के साथ मूल, उपसर्ग युक्त, प्रत्यय युक्त, उपसर्ग-प्रत्यय युक्त, सामासिक, द्विरुक्त जैसी सूचनाएँ दी जा सकती हैं, जैसे- 
वह मानवता वाला दरिया-दिल आदमी है, अमानव का नहीं।
वह                    :
मूल
मानवता             :
प्रत्यय युक्त
वाला                 :
मूल
दरिया-दिल         :
सामासिक
आदमी              :
मूल
है,                     : मूल
अमानव             :
उपसर्ग युक्त
का                    :
मूल
नहीं।                 : मूल
(3) वाक्यात्मक एनोटेशन (Syntactic Annotation)
शब्दों
के साथ वाक्यवैज्ञानिक सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती
हैं- 
§  पदबंध चिह्नन (Phrase Marking/Chunking)
§  पद-विच्छेदन
(Parsing) (वाक्य को उसकी रचना के अनुसार
प्रस्तुत करना)
पदबंध चिह्नित वाक्यों
का उदाहरण- 
| उसने राम के बारे में पूछा | <उसने>NP <राम  के बारे में>NP <पूछा>VP  | 
| वहाँ मोहन के अलावा सभी लोग थे | वहाँ<CCP> मोहन  के अलावा >NP <सभी लोग>NP <थे>VPc  | 
| मेज के बगल में चाय है | <मेज 
  के बगल में>NP <चाय>NP
  <है>VPc  | 
| उसने बहुत अच्छे घड़े से ही पानी निकाला | <उसने>NP <बहुत अच्छे
  घड़े से  ही>NP
  <पानी>NP <निकाला>VP  | 
| उसने बहुत अच्छे घड़े में से पानी निकाला | <उसने>NP <बहुत अच्छे
  घड़े में से>NP <पानी>NP <निकाला>VP  | 
पद-विच्छेदित वाक्य
का उदाहरण- 
<Sentence
id='1'>
1            ((            NP         <fs drel='k7p:VGF' name='NP'>
1.1         बिहार      NNP      <fs
af='बिहार,n,m,sg,3,o,0,0' name='बिहार' posn='10'>
1.2         में            PSP       <fs
af='में,psp,,,,,,' name='में' posn='20'>
              ))
2            ((            NP         <fs drel='r6:NP3' name='NP2'>
2.1         विधानसभा              NNC      <fs
af='विधानसभा,n,f,sg,3,d,0,0' name='विधानसभा' posn='30'>
2.2         चुनाव      NNC      <fs
af='चुनाव,n,m,sg,3,d,0,0' name='चुनाव' posn='40'>
2.3         कार्यक्रम   NN        <fs
af='कार्यक्रम,n,m,sg,3,o,0,0' name='कार्यक्रम' posn='50'>
2.4         की          PSP       <fs
af='का,psp,f,sg,,o,,' name='की' posn='60'>
              ))
3            ((            NP         <fs drel='rt:VGF' name='NP3'>
3.1         घोषणा     NN        <fs
af='घोषणा,n,f,sg,3,o,0,0' name='घोषणा' posn='70'>
3.2         के           PSP       <fs
af='के,psp,,,,,,' name='के' posn='80'>
3.3         लिए        PSP       <fs
af='लिए,psp,,,,,,' name='लिए' posn='90'>
              ))
4            ((            NP         <fs drel='pk1:VGF' name='NP4'>
4.1         सुप्रीम      NNPC   <fs
af='सुप्रीम,unk,,,,,,' name='सुप्रीम' posn='100'>
4.2         कोर्ट        NNP      <fs
af='कोर्ट,n,m,sg,3,o,0,0' name='कोर्ट' posn='110'>
4.3         ने            PSP       <fs
af='ने,psp,,,,,,' name='ने' posn='120'>
              ))
5            ((            NP         <fs drel='jk1:VGF' name='NP5'>
5.1         निर्वाचन   NNC      <fs
af='निर्वाचन,n,m,sg,3,d,0,0' name='निर्वाचन' posn='130'>
5.2         आयोग     NN        <fs
af='आयोग,n,m,sg,3,o,0,0' name='आयोग' posn='140'>
5.3         को          PSP       <fs
af='को,psp,,,,,,' name='को' posn='150'>
              ))
6            ((            NP         <fs drel='adv:VGF' name='NP6'>
6.1         एक         QC         <fs
af='एक,num,any,any,,any,,' name='एक' posn='160'>
6.2         तरह        NN        <fs
af='तरह,n,f,sg,3,o,0,0' name='तरह' posn='170'>
6.3         से            PSP       <fs
af='से,psp,,,,,,s' name='से' posn='180'>
              ))
7            ((            NP         <fs drel='k2:VGF' name='NP7'>
7.1         हरी          JJ            <fs
af='हरी,adj,any,any,,d,,' name='हरी' posn='190'>
7.2         झंडी        NN        <fs
af='झंडी,n,f,sg,3,d,0,0' name='झंडी' posn='200'>
              ))
8            ((            VGF       <fs voicetype='active'
stype='declarative' name='VGF'>
8.1         दिखा       VM        <fs
af='दिखा,v,any,any,any,,0,0' name='दिखा' posn='210'>
8.2         दी           VAUX    <fs
af='दे,v,f,sg,3,,या,yA' name='दी' posn='220'>
8.3         है            VAUX    <fs
af='है,v,any,sg,3,,है,hE' name='है' posn='230'>
8.4         .             SYM      <fs af='.,punc,,,,,,' name='.'
posn='240'>
              ))
</Sentence>
(संदर्भ- एल.टी.आर.सी.,
IIIT, हैदराबाद)
(4) प्रोक्ति स्तरीय
एनोटेशन (Discourse level
Annotation)
शब्दों के साथ प्रोक्ति
संबंधी सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती हैं- 
§  अन्वादेश
(Anaphora), पूर्वादेश (Cataphora),
संदर्भ अभिव्यक्तियाँ (Referential
Expressions)          आदि।
(5) आर्थी एनोटेशन (Semantic Annotation)
शब्दों के साथ अर्थवैज्ञानिक
सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती हैं- 
§  अधिनामी-अवनामी 
§  पर्याय-विलोम                 आदि।
 
 
 
No comments:
Post a Comment