Total Pageviews

Sunday, April 3, 2022

कार्पस एनोटेशन (Corpus Annotation)

 कार्पस एनोटेशन (Corpus Annotation)

किसी कार्पस के आए शब्दों, वाक्यों अथवा पाठों में आवश्यक भाषावैज्ञानिक सूचनाएँ जोड़ना कार्पस एनोटेशन कहलाता है।

टैग किया हुआ या एनोटेट किया हुआ कार्पस ट्रीबैंक’ (Treebank) कहलाता है।

कार्पस एनोटेशन के अंतर्गत निम्नलिखित प्रकार के कार्य आते हैं-

(1) टैगिंग (Tagging)

पाठ या कार्पस के शब्दों के साथ टैग (Tag) जो‌ड़ना। इसके लिए सबसे पहले एक टैगसेट (Tagset) लेते हैं, जिनमें टैग संबंधी विवरण होता है, जैसे-

टैग

शब्दवर्ग नाम

हिंदी नाम

उदाहरण

NNP

Proper noun

व्यक्तिवाचक संज्ञा

राममोहन

NN

Common noun

जातिवाचक संज्ञा

लड़काछाता

PR

Pronoun

सर्वनाम

वहतुम

DT

Determiner

निर्धारक

यहवह

VM

Verb Main

मुख्य क्रिया

जानाखाता

JJ

Adjective

विशेषण

सुंदरबुरा

संदर्भ- टैगिंग और टैगसेट (Tagging and Tagset)

टैगिंग उदाहरण-

वाक्य

टैग्ड वाक्य

राम आम खाता है

राम\NNP आम\NN खाता\VM है\VAX

लड़का अपने घर जा चुका है

लड़का\NN अपने\PRP घर\NN जा\VM चुका\VAS है\VAX

तुम बाजार जाओ

तुम\PR बाजार\NN जाओ\VM

 

(2) रूपिमिक एनोटेशन (Morphological Annotation)

शब्दों के साथ रूपवैज्ञानिक सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती हैं-

§  शब्दभेद या शब्दवर्ग (POS) (टैग)

§  व्याकरणिक कोटियों से संबंधित सूचनाएँ- [लिंग (Gender-G), वचन (Number-N), पुरुष (Person-P), काल (Tense-T), पक्ष (Aspect-A), वृत्ति (Mood-M), कारक (Case-C), वाच्य (Voice-V]

उदाहरण-

वह<WC-सर्वनाम/निर्देशक| G-पुल्लिंग/स्त्रीलिंग |N-एकवचन | P- अन्य|

लड़का<WC-संज्ञा| G-पुल्लिंग| N-एकवचन>

बाहर<WC-क्रियाविशेषण| मुक्त>

बैठा<WC-क्रिया| G-पुल्लिंग| N-एकवचन| P-प्रथम,मध्यम(तू),अन्य| T-भूत| >

बैठा<WC-क्रिया (धातु)| मुक्त>

है<WC-सहायक क्रिया| G-दोनों| N-एकवचन| P-मध्यम(तू)अन्य| T-वर्तमान| >

जो<WC-सर्वनाम| मुक्त>

कल<WC-क्रियाविशेषण| मुक्त>

कल<WC-संज्ञा| G-पुल्लिंग| N-एकवचन>

आया<WC-क्रिया| G-पुल्लिंग| N-एकवचन| P-प्रथम,मध्यम(तू),अन्य| T-भूत| >

था<WC-सहायक क्रिया| G-पुल्लिंग| N-एकवचन| P-प्रथम,मध्यम(तू),अन्य| T-भूत| >

शब्द-निर्माण (Word Formation/Derivation) की दृष्टि से भी रूपिमिक एनोटेशन किया जा सकता है, जिसमें शब्दों के साथ मूल, उपसर्ग युक्त, प्रत्यय युक्त, उपसर्ग-प्रत्यय युक्त, सामासिक, द्विरुक्त जैसी सूचनाएँ दी जा सकती हैं, जैसे-

वह मानवता वाला दरिया-दिल आदमी है, अमानव का नहीं।

वह                    : मूल

मानवता             : प्रत्यय युक्त

वाला                 : मूल

दरिया-दिल         : सामासिक

आदमी              : मूल

है,                     : मूल

अमानव             : उपसर्ग युक्त

का                    : मूल

नहीं।                 : मूल

(3) वाक्यात्मक एनोटेशन (Syntactic Annotation)

शब्दों के साथ वाक्यवैज्ञानिक सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती हैं-

§  पदबंध चिह्नन (Phrase Marking/Chunking)

§  पद-विच्छेदन (Parsing) (वाक्य को उसकी रचना के अनुसार प्रस्तुत करना)

पदबंध चिह्नित वाक्यों का उदाहरण-

उसने राम के बारे में पूछा

<उसने>NP <राम  के बारे में>NP <पूछा>VP

वहाँ मोहन के अलावा सभी लोग थे

वहाँ<CCP> मोहन  के अलावा >NP <सभी लोग>NP <थे>VPc

मेज के बगल में चाय है

<मेज  के बगल में>NP <चाय>NP <है>VPc

उसने बहुत अच्छे घड़े से ही पानी निकाला

<उसने>NP <बहुत अच्छे घड़े से  ही>NP <पानी>NP <निकाला>VP

उसने बहुत अच्छे घड़े में से पानी निकाला

<उसने>NP <बहुत अच्छे घड़े में से>NP <पानी>NP <निकाला>VP

पद-विच्छेदित वाक्य का उदाहरण-

<Sentence id='1'>

1            ((            NP         <fs drel='k7p:VGF' name='NP'>

1.1         बिहार      NNP      <fs af='बिहार,n,m,sg,3,o,0,0' name='बिहार' posn='10'>

1.2         में            PSP       <fs af='में,psp,,,,,,' name='में' posn='20'>

              ))

2            ((            NP         <fs drel='r6:NP3' name='NP2'>

2.1         विधानसभा              NNC      <fs af='विधानसभा,n,f,sg,3,d,0,0' name='विधानसभा' posn='30'>

2.2         चुनाव      NNC      <fs af='चुनाव,n,m,sg,3,d,0,0' name='चुनाव' posn='40'>

2.3         कार्यक्रम   NN        <fs af='कार्यक्रम,n,m,sg,3,o,0,0' name='कार्यक्रम' posn='50'>

2.4         की          PSP       <fs af='का,psp,f,sg,,o,,' name='की' posn='60'>

              ))

3            ((            NP         <fs drel='rt:VGF' name='NP3'>

3.1         घोषणा     NN        <fs af='घोषणा,n,f,sg,3,o,0,0' name='घोषणा' posn='70'>

3.2         के           PSP       <fs af='के,psp,,,,,,' name='के' posn='80'>

3.3         लिए        PSP       <fs af='लिए,psp,,,,,,' name='लिए' posn='90'>

              ))

4            ((            NP         <fs drel='pk1:VGF' name='NP4'>

4.1         सुप्रीम      NNPC   <fs af='सुप्रीम,unk,,,,,,' name='सुप्रीम' posn='100'>

4.2         कोर्ट        NNP      <fs af='कोर्ट,n,m,sg,3,o,0,0' name='कोर्ट' posn='110'>

4.3         ने            PSP       <fs af='ने,psp,,,,,,' name='ने' posn='120'>

              ))

5            ((            NP         <fs drel='jk1:VGF' name='NP5'>

5.1         निर्वाचन   NNC      <fs af='निर्वाचन,n,m,sg,3,d,0,0' name='निर्वाचन' posn='130'>

5.2         आयोग     NN        <fs af='आयोग,n,m,sg,3,o,0,0' name='आयोग' posn='140'>

5.3         को          PSP       <fs af='को,psp,,,,,,' name='को' posn='150'>

              ))

6            ((            NP         <fs drel='adv:VGF' name='NP6'>

6.1         एक         QC         <fs af='एक,num,any,any,,any,,' name='एक' posn='160'>

6.2         तरह        NN        <fs af='तरह,n,f,sg,3,o,0,0' name='तरह' posn='170'>

6.3         से            PSP       <fs af='से,psp,,,,,,s' name='से' posn='180'>

              ))

7            ((            NP         <fs drel='k2:VGF' name='NP7'>

7.1         हरी          JJ            <fs af='हरी,adj,any,any,,d,,' name='हरी' posn='190'>

7.2         झंडी        NN        <fs af='झंडी,n,f,sg,3,d,0,0' name='झंडी' posn='200'>

              ))

8            ((            VGF       <fs voicetype='active' stype='declarative' name='VGF'>

8.1         दिखा       VM        <fs af='दिखा,v,any,any,any,,0,0' name='दिखा' posn='210'>

8.2         दी           VAUX    <fs af='दे,v,f,sg,3,,या,yA' name='दी' posn='220'>

8.3         है            VAUX    <fs af='है,v,any,sg,3,,है,hE' name='है' posn='230'>

8.4         .             SYM      <fs af='.,punc,,,,,,' name='.' posn='240'>

              ))

</Sentence>

 

(संदर्भ- एल.टी.आर.सी., IIIT, हैदराबाद)

(4) प्रोक्ति स्तरीय एनोटेशन (Discourse level Annotation)

शब्दों के साथ प्रोक्ति संबंधी सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती हैं-

§  अन्वादेश (Anaphora), पूर्वादेश (Cataphora), संदर्भ अभिव्यक्तियाँ (Referential Expressions)          आदि।

(5) आर्थी एनोटेशन (Semantic Annotation)

शब्दों के साथ अर्थवैज्ञानिक सूचनाएँ जोड़ना। इसके अंतर्गत निम्नलिखित प्रकार की सूचनाएँ आती हैं-

§  अधिनामी-अवनामी

§  पर्याय-विलोम                 आदि।

 

 

No comments:

Post a Comment