Total Pageviews

Monday, December 16, 2024

पाइथन में प्राकृतिक भाषा संसाधन, भाग : 2. रूप विश्लेषण/कोशीमीकरण (Morphological Analysis/Lemmatization)

 पाइथन में प्राकृतिक भाषा संसाधन, भाग : 2. रूप विश्लेषण/कोशीमीकरण (Morphological Analysis/Lemmatization)

§  किसी पाठ में आए हुए शब्दों के सभी रूपसाधित रूपों का विश्लेषण करके उनके मूल रूप को प्राप्त करने की प्रक्रिया रूप-विश्लेषण कहलाती है।

§  तकनीकी रूप से इसे कोशीमीकरण नाम दिया गया है, जिसका अर्थ है- कोशीय इकाई को प्राप्त करना। कोशीय इकाई शब्द का वह रूप है, जो शब्दकोश में पाया जाता है।

§  पाठ में जब शब्दों के रूपसाधित रूप आते हैं, तो इस प्रक्रिया द्वारा उनका मूल रूप/कोशीय रूप प्रस्तुत किया जाता है।

§  उदाहरण के लिए- उसने, उसको, उससे, उसमें, उसपर, उसेआदि आने पर वहप्रस्तुत किया जाएगा। जाता, जाती, जाते, गया, गई, गए, जाऊंगा, जाऊंगीआदि आने पर जानाप्रस्तुत किया जाएगा।

§  इसी प्रकार लड़का, लड़के, लड़कोआने पर लड़काप्रस्तुत किया जाएगा।लड़की, लड़कियाँ, लड़कियों आने पर लड़की प्रस्तुत किया जाएगा।

पाइथन में रूप विश्लेषण/ कोशीमीकरण

इसके लिए निम्नलिखित कोड करें-

# prompt: lemmatizer

 

import nltk

nltk.download('wordnet')

nltk.download('omw-1.4')

from nltk.stem import WordNetLemmatizer

 

lemmatizer = WordNetLemmatizer()

 

# Example usage

word = "running"

lemmatized_word = lemmatizer.lemmatize(word, pos='v')  # pos='v' specifies verb lemmatization

print(f"Lemmatized form of '{word}': {lemmatized_word}")

 

आउटपुट :

Lemmatized form of 'running': run

[nltk_data] Downloading package wordnet to /root/nltk_data...

[nltk_data]   Package wordnet is already up-to-date!

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...

[nltk_data]   Package omw-1.4 is already up-to-date!

 

No comments:

Post a Comment