कार्पस में बारंबरता गणना (Frequency Counting) और शब्द छांटना (word sorting)
कार्पस किसी भाषा
के वास्तविक व्यवहार से संकलित भाषायी सामग्री के विशाल संकलन होते हैं। अतः ये मात्रात्मक
(quantitative) और गुणात्मक (qualitative)
दोनों ही दृष्टि से
विश्लेषण के योग्य होते हैं। वैसे तो भाषा की संरचना इतनी जटिल और वैविध्य पूर्ण
है कि इसमें गुणात्मक विश्लेषण ही अधिक उपयोगी होता है। मात्रात्मक विश्लेषण के
माध्यम से भाषा संरचना संबंधी बहुत कम ही बातें स्पष्ट हो पाती हैं, किंतु इसके बावजूद कार्पस भाषाविज्ञान, कंप्यूटेशनल
भाषाविज्ञान और गणितीय भाषाविज्ञान जैसे विषयों में कार्पस के मात्रात्मक विश्लेषण का भी
विशेष महत्व है। कार्पस का मात्रात्मक विश्लेषण करने के लिए
कुछ आवश्यक प्रक्रियाएँ की जाती हैं। ‘आवृत्ति/बारंबरता गणना’ (Frequency Counting)
उनमें से एक प्रमुख कार्य है।
 किसी कार्पस के अंतर्गत संकलित पाठ में आए
शब्दों तथा वाक्यों की आवृत्ति की गणना ‘शब्द आवृत्ति
गणना’ (WFC) कहलाती है। इसके लिए आवृत्ति
गणक (Frequency Counter) नामक टूल का प्रयोग किया जाता है।
इस टूल के माध्यम से एक क्लिक में अत्यंत सरलतापूर्वक की जा सकती है। सभी कार्पस
निर्माणकर्ता अपने कार्पस में शब्दों की आवृत्ति की गणना हेतु इस प्रकार के टूल्स
का प्रयोग करते हैं। ऐसे टूल  का मुख्य
कार्य है-
§ 
किसी कार्पस में आए सभी एकल/अद्वितीय
शब्दों (Unique
Words) को अलग अलग करना तथा 
कार्पस में उनकी आवृत्ति प्रस्तुत करना 
इस प्रकार निर्मित सूची की सार्टिंग भी की
जा सकती है, जो चार प्रकार से की जाती है। इन्हें
दो वर्गों में रखकर समझ सकते हैं-
(क) वर्णात्मक  छाँटना (alphabetical sorting)
§  वर्णानुक्रम
में (हिंदी के लिए अकारादिक्रम) अंग्रेजी के लिए a to z
§  प्रति-वर्णानुक्रम में - उपर्युक्त का विपरीत क्रम
(ख) संख्यात्मक छाँटना (numerical
sorting)
§  सर्वाधिक
आवृत्ति से न्यूनतम आवृत्ति के क्रम में
§ 
न्यूनतम आवृत्ति से
सर्वाधिक अभी तक के क्रम में
 उदाहरण के लिए एलटीआरसी,
आईआईटी हैदराबाद द्वारा अपने कार्पस के शब्दों के शब्द आवृत्ति गणना
करते हुए उन्हें इस प्रकार से प्रस्तुत किया गया है-
word       count
।          1478
है          1378
के          1304
में          1174
,          1057
से          819
की         666
और        566
हैं          511
का         507
को         489
"          415
(          376
)          374
हो          293
पर         260
एक         231
जाता        225
किया        214
या         214
नहीं        213
यह         209
भी         196
कि         181
-          175
कर         152
तथा        148
लिए        147
सकता       147
होता        146
वायरस      144
डेंगू         141
उपचार       137
तक         137
रूप         136
था         136
कम        134
गया        130
(संदर्भ- https://ltrc.iiit.ac.in/downloads/kolhi/data/hindi_diseases_word_frequency_list.txt) 
 मैंने स्वयं एक शब्द आवृत्ति गणक बनाया
है, जिसमें कितने भी पाठों को डालकर उनमें आए हुए शब्दों  की आवृत्ति की गणना की जा सकती है। इसका एक उदाहरण दर्शनीय है-
........................................................................
 
 
 
No comments:
Post a Comment