पाइथन में प्राकृतिक भाषा संसाधन, भाग : 1. टोकनीकरण (Tokenization)
§
इनपुट
पाठ को छोटे खंडों, जैसे- वाक्यों, शब्दों, वर्णों
आदि में तोड़ने की प्रक्रिया टोकनीकरण कहलाती है।
§ प्राकृतिक भाषा संसाधन प्रणालियों में यह कार्य स्वचालित
रूप से किया जाता है।
§ इसे खंदीकरण भी कहते हैं,
अर्थात- पाठ का खंड-खंड करना।
§
जिस
स्तर पर खंड बनाए जाते हैं, उनमें से प्रत्येक को एक टोकन कहते हैं,
जैसे- पाठ को वाक्यों में तोड़ने पर प्रत्येक वाक्य एक टोकन
होगा, जबकि वाक्य को शब्दों में तोड़ने पर प्रत्येक शब्द एक टोकन होगा।
पाइथन में टोकनीकरण
इसके लिए निम्नलिखित कोड करें-
# prompt: tokenizer in python for
hindi
!pip install indic-nlp-library
from indicnlp.tokenize import indic_tokenize
text = " हिंदी भारत की राजभाषा है। मैं एक
एक भारतीय हूँ। हमें अपनी हिंदी पर बहुत गर्व होना चाहिए।"
tokens =
indic_tokenize.trivial_tokenize(text)
tokens
इसमें ‘text’ की जगह पर कोई भी पाठ दिया जा सकता है।
आउटपुट :
Installing collected packages: morfessor,
sphinxcontrib-jquery,
sphinx-argparse, sphinx-rtd-theme,
indic-nlp-library Successfully installed indic-
nlp-library-0.92 morfessor-2.0.6
sphinx-argparse-0.5.2 sphinx-rtd-
theme-3.0.2 sphinxcontrib-jquery-4.1
['हिंदी', 'भारत', 'की', 'राजभाषा', 'है', '।', 'मैं', 'एक', 'एक', 'भारतीय', 'हूँ', '।', 'हमें', 'अपनी', 'हिंदी', 'पर', 'बहुत', 'गर्व', 'होना', 'चाहिए', '।']
No comments:
Post a Comment