पाइथन में प्राकृतिक भाषा संसाधन, भाग : 2. रूप विश्लेषण/कोशीमीकरण (Morphological Analysis/Lemmatization)
§ किसी पाठ में आए हुए शब्दों के सभी रूपसाधित रूपों का
विश्लेषण करके उनके मूल रूप को प्राप्त करने की प्रक्रिया रूप-विश्लेषण कहलाती है।
§ तकनीकी रूप से इसे कोशीमीकरण नाम दिया गया है,
जिसका अर्थ है- कोशीय इकाई को प्राप्त करना। कोशीय इकाई
शब्द का वह रूप है, जो शब्दकोश में पाया जाता है।
§
पाठ
में जब शब्दों के रूपसाधित रूप आते हैं, तो इस प्रक्रिया द्वारा उनका मूल रूप/कोशीय रूप प्रस्तुत
किया जाता है।
§
उदाहरण
के लिए- ‘उसने, उसको, उससे, उसमें, उसपर, उसे’ आदि आने पर ‘वह’ प्रस्तुत किया जाएगा। ‘जाता, जाती, जाते, गया, गई, गए, जाऊंगा, जाऊंगी’ आदि आने पर ‘जाना’ प्रस्तुत किया जाएगा।
§
इसी
प्रकार ‘लड़का, लड़के, लड़को’ आने पर ‘लड़का’ प्रस्तुत किया जाएगा। ‘लड़की, लड़कियाँ, लड़कियों’ आने पर ‘लड़की’ प्रस्तुत किया जाएगा।
पाइथन में रूप विश्लेषण/ कोशीमीकरण
इसके लिए निम्नलिखित कोड करें-
# prompt: lemmatizer
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
# Example usage
word = "running"
lemmatized_word =
lemmatizer.lemmatize(word, pos='v') # pos='v' specifies verb
lemmatization
print(f"Lemmatized form of '{word}': {lemmatized_word}")
आउटपुट :
Lemmatized form of 'running': run
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Package wordnet is
already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Package omw-1.4 is
already up-to-date!
No comments:
Post a Comment