Total Pageviews

Monday, December 16, 2024

पाइथन में प्राकृतिक भाषा संसाधन, भाग : 3. टैगिंग (Tagging)

 पाइथन में प्राकृतिक भाषा संसाधन, भाग : 3. टैगिंग (Tagging)

§  किसी पाठ में आए हुए शब्दों के साथ उनके शब्दवर्ग या रूप-वाक्यीय सूचनाएँ जोड़ना टैगिंग है।

§  टैगिंग करने के लिए सर्वप्रथम प्रत्येक अलग प्रकार के वर्ग/उपवर्ग के लिए चिह्न निर्मित किया जाता है, जिसे टैग (Tag) कहते हैं, जैसे- जातिवाचक संज्ञा के लिए ‘NN’

§  टैगों के समुच्चय को टैगसेट (Tagset) कहते हैं।

§  किसी पाठ की टैगिंग के लिए टैगसेट होना आवश्यक है।

§  हम अपना टैगसेट बना सकते हैं या पूर्व में बने हुए टैगसेट का प्रयोग कर सकते हैं।

पाइथन में टैगिंग

इसके लिए निम्नलिखित कोड करें-

!pip install nltk

 

import nltk

from nltk.tag import tnt

 

nltk.download('indian')

 

# Load the pre-trained Hindi POS tagger

tnt_tagger = tnt.TnT()

tnt_tagger.train(nltk.corpus.indian.tagged_sents('hindi.pos'))

 

# Text to tag

text = " हिंदी भारत की राजभाषा है। मैं एक एक भारतीय हूँ। हमें अपनी हिंदी पर बहुत गर्व होना चाहिए।"

 

# Tokenize the text

words = nltk.word_tokenize(text)

 

# Tag the words

tagged_words = tnt_tagger.tag(words)

 

print(tagged_words)

No comments:

Post a Comment