Total Pageviews

Monday, April 11, 2022

कार्पस में बारंबरता गणना (Frequency Counting) और शब्द छांटना (word sorting)

 कार्पस में बारंबरता गणना (Frequency Counting) और शब्द छांटना (word sorting)

कार्पस किसी भाषा के वास्तविक व्यवहार से संकलित भाषायी सामग्री के विशाल संकलन होते हैं। अतः ये मात्रात्मक (quantitative) और गुणात्मक (qualitative) दोनों ही दृष्टि से विश्लेषण के योग्य होते हैं। वैसे तो भाषा की संरचना इतनी जटिल और वैविध्य पूर्ण है कि इसमें गुणात्मक विश्लेषण ही अधिक उपयोगी होता है। मात्रात्मक विश्लेषण के माध्यम से भाषा संरचना संबंधी बहुत कम ही बातें स्पष्ट हो पाती हैं, किंतु इसके बावजूद कार्पस भाषाविज्ञान, कंप्यूटेशनल भाषाविज्ञान और गणितीय भाषाविज्ञान जैसे विषयों में कार्पस के मात्रात्मक विश्लेषण का भी विशेष महत्व है। कार्पस का मात्रात्मक विश्लेषण करने के लिए कुछ आवश्यक प्रक्रियाएँ की जाती हैं। आवृत्ति/बारंबरता गणना (Frequency Counting) उनमें से एक प्रमुख कार्य है।

 किसी कार्पस के अंतर्गत संकलित पाठ में आए शब्दों तथा वाक्यों की आवृत्ति की गणना शब्द आवृत्ति गणना (WFC) कहलाती है। इसके लिए आवृत्ति गणक (Frequency Counter) नामक टूल का प्रयोग किया जाता है। इस टूल के माध्यम से एक क्लिक में अत्यंत सरलतापूर्वक की जा सकती है। सभी कार्पस निर्माणकर्ता अपने कार्पस में शब्दों की आवृत्ति की गणना हेतु इस प्रकार के टूल्स का प्रयोग करते हैं। ऐसे टूल  का मुख्य कार्य है-

§  किसी कार्पस में आए सभी एकल/अद्वितीय शब्दों (Unique Words) को अलग अलग करना तथा  कार्पस में उनकी आवृत्ति प्रस्तुत करना

इस प्रकार निर्मित सूची की सार्टिंग भी की जा सकती है, जो चार प्रकार से की जाती है। इन्हें दो वर्गों में रखकर समझ सकते हैं-

(क) वर्णात्मक  छाँटना (alphabetical sorting)

§  वर्णानुक्रम में (हिंदी के लिए अकारादिक्रम) अंग्रेजी के लिए a to z

§  प्रति-वर्णानुक्रम में - उपर्युक्त का विपरीत क्रम

(ख) संख्यात्मक छाँटना (numerical sorting)

§  सर्वाधिक आवृत्ति से न्यूनतम आवृत्ति के क्रम में

§  न्यूनतम आवृत्ति से सर्वाधिक अभी तक के क्रम में

 उदाहरण के लिए एलटीआरसी, आईआईटी हैदराबाद द्वारा अपने कार्पस के शब्दों के शब्द आवृत्ति गणना करते हुए उन्हें इस प्रकार से प्रस्तुत किया गया है-

word       count

          1478

है          1378

के          1304

में          1174

,          1057

से          819

की         666

और        566

हैं          511

का         507

को         489

"          415

(          376

)          374

हो          293

पर         260

एक         231

जाता        225

किया        214

या         214

नहीं        213

यह         209

भी         196

कि         181

-          175

कर         152

तथा        148

लिए        147

सकता       147

होता        146

वायरस      144

डेंगू         141

उपचार       137

तक         137

रूप         136

था         136

कम        134

गया        130

(संदर्भ- https://ltrc.iiit.ac.in/downloads/kolhi/data/hindi_diseases_word_frequency_list.txt)

 मैंने स्वयं एक शब्द आवृत्ति गणक बनाया है, जिसमें कितने भी पाठों को डालकर उनमें आए हुए शब्दों  की आवृत्ति की गणना की जा सकती है। इसका एक उदाहरण दर्शनीय है-


........................................................................

No comments:

Post a Comment