पाइथन में प्राकृतिक भाषा संसाधन, भाग : 3. टैगिंग (Tagging)
§
किसी
पाठ में आए हुए शब्दों के साथ उनके शब्दवर्ग या रूप-वाक्यीय सूचनाएँ जोड़ना टैगिंग
है।
§
टैगिंग
करने के लिए सर्वप्रथम प्रत्येक अलग प्रकार के वर्ग/उपवर्ग के लिए चिह्न निर्मित
किया जाता है, जिसे टैग (Tag) कहते हैं, जैसे- जातिवाचक संज्ञा के लिए ‘NN’।
§
टैगों
के समुच्चय को टैगसेट (Tagset) कहते हैं।
§
किसी
पाठ की टैगिंग के लिए टैगसेट होना आवश्यक है।
§
हम
अपना टैगसेट बना सकते हैं या पूर्व में बने हुए टैगसेट का प्रयोग कर सकते हैं।
पाइथन में टैगिंग
इसके लिए निम्नलिखित कोड करें-
!pip install nltk
import nltk
from nltk.tag import tnt
nltk.download('indian')
# Load the pre-trained Hindi POS
tagger
tnt_tagger = tnt.TnT()
tnt_tagger.train(nltk.corpus.indian.tagged_sents('hindi.pos'))
# Text to tag
text = " हिंदी भारत की राजभाषा है। मैं एक एक भारतीय हूँ। हमें
अपनी हिंदी पर बहुत गर्व होना चाहिए।"
# Tokenize the text
words = nltk.word_tokenize(text)
# Tag the words
tagged_words =
tnt_tagger.tag(words)
print(tagged_words)
No comments:
Post a Comment