Total Pageviews

Thursday, March 3, 2022

कार्पस (Corpus) क्या है?

 कार्पस (Corpus) क्या है?

कार्पस भाषा व्यवहार के विविध क्षेत्रों से लिखित या वाचिक सामग्री का प्रामाणिक स्रोतों से विशाल मशीन पठनीय संग्रह है।

कार्पस की विशेषताएँ-

कार्पस की उपर्युक्त परिभाषा के आधार पर इसकी आधारभूत विशेषताओं को इस प्रकार से देख सकते हैं-

(क)     विशाल संग्रह

(ख)     प्रामाणिक स्रोत

(ग)      मशीन पठनीय

(घ)      भाषा व्यवहार के विविध क्षेत्र

(ङ)     लिखित या वाचिक सामग्री

इन्हें संक्षेप में इस प्रकार से देख सकते हैं-

(क)    विशाल संग्रह

कार्पस के रूप में संकलित सामग्री में लाखों शब्द या वाक्य होते हैं। अतः भाषायी सामग्री का कोई छोटा संग्रह कार्पस नहीं कहला सकता है। जब वह संग्रह लाखों या करोड़ों शब्दों का हो जाता है, तभी कार्पस कहलाता है।

(ख)   प्रामाणिक स्रोत

कार्पस के लिए संकलित सामग्री प्रामाणिक स्रोतों से ली जानी चाहिए। हम अपने से कृत्रिम वाक्य बनाकर कार्पस नहीं निर्मित कर सकते।

(ग)    मशीन पठनीय

यहाँ सरल शब्दों में मशीन पठनीय से तात्पर्य टाइप  की हुई सामग्री से है। स्कैन किए हुए पाठों का संग्रह कार्पस नहीं कहलाएगा।

(घ)    भाषा व्यवहार के विविध क्षेत्र

कार्पस संपूर्ण भाषायी व्यवहार के प्रतिनिधित्व को ध्यान में रखते हुए विकसित किए जाते हैं। इसलिए इनमें भाषा व्यवहार के अधिकाधिक क्षत्रों से सामग्री संकलन अपेक्षित होता है।

यदि कार्पस में केवल एक ही क्षेत्र में होने वाले भाषा व्यवहार की सामग्री का संकलन है तो उसे प्रक्षेत्र-आधारित कार्पस (Domain specific corpus) कहते हैं, जैसे- चिकित्सा कार्पस, साहित्य कार्पस आदि।

(ङ)    लिखित या वाचिक सामग्री

कार्पस लिखित, वाचिक या दोनों प्रकार की भाषायी सामग्री का संकलन होता है।

No comments:

Post a Comment