किसी पाठ में आए हुए शब्दों के साथ उनके शब्दवर्ग (Parts of Speech-POS) या रूप-वाक्यीय सूचनाएँ (Morpho-Syntactic Information) जोड़ना टैगिंग (Tagging) है। वह टूल या सॉफ्टवेयर जो टैगिंग करता है, टैगर (Tagger) कहलाता है।
टैगिंग
करने के लिए शब्दों के स्वरूप और प्रकार्य के अनुसार उनके अलग-अलग वर्ग/उपवर्ग बनाए
जाते हैं। फिर प्रत्येक वर्ग के लिए एक चिह्न निर्मित किया जाता है। इसी चिह्न को
टैग (Tag)
कहते हैं, जैसे- जातिवाचक संज्ञा के लिए ‘NN’।
टैगों
के समुच्चय को टैगसेट (Tagset) कहते हैं।
टैगिंग
के लिए एक टैगसेट का होना आवश्यक होता है। प्रत्येक भाषा में कुछ शब्दवर्ग समान
होते हैं। अतः उनके टैग एक ही होने चाहिए। किंतु भाषा विशेष में पाए जाने वाले
शब्दवर्गों के लिए स्वतंत्र टैग बनाए जा सकते हैं। विभिन्न कार्पस विकासकर्ताओं और
प्राकृतिक भाषा संसाधन प्रणाली (NLP System) विकासकर्ताओं
द्वारा भाँति-भाँति के टैगसेट विकसित किए जाते हैं। उनमें यह प्रयास रहता है कि यथासंभव
एकरूपता बनी रहे।
इस लिंक पर जाकर और पढ़ें-
No comments:
Post a Comment