कार्पस (Corpus) क्या है?
कार्पस भाषा व्यवहार के विविध क्षेत्रों से
लिखित या वाचिक सामग्री का प्रामाणिक स्रोतों से विशाल मशीन पठनीय संग्रह है।
कार्पस की विशेषताएँ-
कार्पस की उपर्युक्त परिभाषा के आधार पर इसकी
आधारभूत विशेषताओं को इस प्रकार से देख सकते हैं-
(क) विशाल
संग्रह
(ख) प्रामाणिक
स्रोत
(ग) मशीन
पठनीय
(घ) भाषा
व्यवहार के विविध क्षेत्र
(ङ)
लिखित या वाचिक सामग्री
इन्हें संक्षेप में इस प्रकार से देख सकते हैं-
(क) विशाल
संग्रह
कार्पस
के रूप में संकलित सामग्री में लाखों शब्द या वाक्य होते हैं। अतः भाषायी सामग्री का
कोई छोटा संग्रह कार्पस नहीं कहला सकता है। जब वह संग्रह लाखों या करोड़ों शब्दों का
हो जाता है, तभी कार्पस कहलाता है।
(ख) प्रामाणिक
स्रोत
कार्पस
के लिए संकलित सामग्री प्रामाणिक स्रोतों से ली जानी चाहिए। हम अपने से कृत्रिम वाक्य
बनाकर कार्पस नहीं निर्मित कर सकते।
(ग) मशीन
पठनीय
यहाँ
सरल शब्दों में मशीन पठनीय से तात्पर्य ‘टाइप’ की हुई सामग्री से है। स्कैन किए
हुए पाठों का संग्रह कार्पस नहीं कहलाएगा।
(घ) भाषा
व्यवहार के विविध क्षेत्र
कार्पस
संपूर्ण भाषायी व्यवहार के प्रतिनिधित्व को ध्यान में रखते हुए विकसित किए जाते हैं।
इसलिए इनमें भाषा व्यवहार के अधिकाधिक क्षत्रों से सामग्री संकलन अपेक्षित होता है।
यदि
कार्पस में केवल एक ही क्षेत्र में होने वाले भाषा व्यवहार की सामग्री का संकलन है
तो उसे ‘प्रक्षेत्र-आधारित कार्पस’ (Domain specific
corpus) कहते हैं, जैसे- चिकित्सा कार्पस, साहित्य कार्पस आदि।
(ङ) लिखित
या वाचिक सामग्री
कार्पस
लिखित, वाचिक या दोनों प्रकार की भाषायी सामग्री का संकलन होता है।
No comments:
Post a Comment