कार्पस में बारंबरता गणना (Frequency Counting) और शब्द छांटना (word sorting)
कार्पस किसी भाषा
के वास्तविक व्यवहार से संकलित भाषायी सामग्री के विशाल संकलन होते हैं। अतः ये मात्रात्मक
(quantitative) और गुणात्मक (qualitative)
दोनों ही दृष्टि से
विश्लेषण के योग्य होते हैं। वैसे तो भाषा की संरचना इतनी जटिल और वैविध्य पूर्ण
है कि इसमें गुणात्मक विश्लेषण ही अधिक उपयोगी होता है। मात्रात्मक विश्लेषण के
माध्यम से भाषा संरचना संबंधी बहुत कम ही बातें स्पष्ट हो पाती हैं, किंतु इसके बावजूद कार्पस भाषाविज्ञान, कंप्यूटेशनल
भाषाविज्ञान और गणितीय भाषाविज्ञान जैसे विषयों में कार्पस के मात्रात्मक विश्लेषण का भी
विशेष महत्व है। कार्पस का मात्रात्मक विश्लेषण करने के लिए
कुछ आवश्यक प्रक्रियाएँ की जाती हैं। ‘आवृत्ति/बारंबरता गणना’ (Frequency Counting)
उनमें से एक प्रमुख कार्य है।
किसी कार्पस के अंतर्गत संकलित पाठ में आए
शब्दों तथा वाक्यों की आवृत्ति की गणना ‘शब्द आवृत्ति
गणना’ (WFC) कहलाती है। इसके लिए आवृत्ति
गणक (Frequency Counter) नामक टूल का प्रयोग किया जाता है।
इस टूल के माध्यम से एक क्लिक में अत्यंत सरलतापूर्वक की जा सकती है। सभी कार्पस
निर्माणकर्ता अपने कार्पस में शब्दों की आवृत्ति की गणना हेतु इस प्रकार के टूल्स
का प्रयोग करते हैं। ऐसे टूल का मुख्य
कार्य है-
§
किसी कार्पस में आए सभी एकल/अद्वितीय
शब्दों (Unique
Words) को अलग अलग करना तथा
कार्पस में उनकी आवृत्ति प्रस्तुत करना
इस प्रकार निर्मित सूची की सार्टिंग भी की
जा सकती है, जो चार प्रकार से की जाती है। इन्हें
दो वर्गों में रखकर समझ सकते हैं-
(क) वर्णात्मक छाँटना (alphabetical sorting)
§ वर्णानुक्रम
में (हिंदी के लिए अकारादिक्रम) अंग्रेजी के लिए a to z
§ प्रति-वर्णानुक्रम में - उपर्युक्त का विपरीत क्रम
(ख) संख्यात्मक छाँटना (numerical
sorting)
§ सर्वाधिक
आवृत्ति से न्यूनतम आवृत्ति के क्रम में
§
न्यूनतम आवृत्ति से
सर्वाधिक अभी तक के क्रम में
उदाहरण के लिए एलटीआरसी,
आईआईटी हैदराबाद द्वारा अपने कार्पस के शब्दों के शब्द आवृत्ति गणना
करते हुए उन्हें इस प्रकार से प्रस्तुत किया गया है-
word count
। 1478
है 1378
के 1304
में 1174
, 1057
से 819
की 666
और 566
हैं 511
का 507
को 489
" 415
( 376
) 374
हो 293
पर 260
एक 231
जाता 225
किया 214
या 214
नहीं 213
यह 209
भी 196
कि 181
- 175
कर 152
तथा 148
लिए 147
सकता 147
होता 146
वायरस 144
डेंगू 141
उपचार 137
तक 137
रूप 136
था 136
कम 134
गया 130
(संदर्भ- https://ltrc.iiit.ac.in/downloads/kolhi/data/hindi_diseases_word_frequency_list.txt)
मैंने स्वयं एक शब्द आवृत्ति गणक बनाया
है, जिसमें कितने भी पाठों को डालकर उनमें आए हुए शब्दों की आवृत्ति की गणना की जा सकती है। इसका एक उदाहरण दर्शनीय है-
........................................................................
No comments:
Post a Comment