Total Pageviews

Monday, December 16, 2024

पाइथन में प्राकृतिक भाषा संसाधन, भाग : 1. टोकनीकरण (Tokenization)

 पाइथन में प्राकृतिक भाषा संसाधन, भाग : 1. टोकनीकरण (Tokenization)

§  इनपुट पाठ को छोटे खंडों, जैसे- वाक्यों, शब्दों, वर्णों आदि में तोड़ने की प्रक्रिया टोकनीकरण कहलाती है।

§  प्राकृतिक भाषा संसाधन प्रणालियों में यह कार्य स्वचालित रूप से किया जाता है।

§  इसे खंदीकरण भी कहते हैं, अर्थात- पाठ का खंड-खंड करना।

§  जिस स्तर पर खंड बनाए जाते हैं, उनमें से प्रत्येक को एक टोकन कहते हैं, जैसे- पाठ को वाक्यों में तोड़ने पर प्रत्येक वाक्य एक टोकन होगा, जबकि वाक्य को शब्दों में तोड़ने पर प्रत्येक शब्द एक टोकन होगा।

पाइथन में टोकनीकरण

इसके लिए निम्नलिखित कोड करें-

# prompt: tokenizer in python for hindi

 

!pip install indic-nlp-library

 

from indicnlp.tokenize import indic_tokenize

 

text = " हिंदी भारत की राजभाषा है। मैं एक एक भारतीय हूँ। हमें अपनी हिंदी पर बहुत गर्व होना चाहिए।"

tokens = indic_tokenize.trivial_tokenize(text)

tokens

इसमें ‘text’ की जगह पर कोई भी पाठ दिया जा सकता है।

आउटपुट : 

Installing collected packages: morfessor, 
sphinxcontrib-jquery, 
sphinx-argparse, sphinx-rtd-theme,
 indic-nlp-library
Successfully installed indic-
nlp-library-0.92 morfessor-2.0.6 
sphinx-argparse-0.5.2 sphinx-rtd-
theme-3.0.2 sphinxcontrib-jquery-4.1

['हिंदी',
 'भारत',
 'की',
 'राजभाषा',
 'है',
 '।',
 'मैं',
 'एक',
 'एक',
 'भारतीय',
 'हूँ',
 '।',
 'हमें',
 'अपनी',
 'हिंदी',
 'पर',
 'बहुत',
 'गर्व',
 'होना',
 'चाहिए',
 '।']

No comments:

Post a Comment