कार्पस भाषाविज्ञान (Corpus Linguistics)
कार्पस भाषाविज्ञान भाषाओं के कार्पस आधारित अध्ययन और मशीनी अनुप्रयोग प्रणालियों के विकास संबंधित एक अंतरानुशासनिक ज्ञानशाखा है। इसमें एक ओर ‘भाषाविज्ञान’ है, जो इसका सैद्धांतिक पक्ष है, दूसरी ओर ‘सांख्यिकी विज्ञान’ (Statistics) है, मशीनी अनुप्रयोग से संबंधित है।
कार्पस भाषाविज्ञान के आने वाले कुछ प्रमुख
बिंदु इस प्रकार हैं-
(क) कार्पस क्या है?
§ कार्पस
की अवधारणा
§ कार्पस
की परिभाषा
§ कार्पस
की विशेषताएँ
§
कार्पस की उपयोगिता
(ख)
कार्पस निर्माण प्रक्रिया
इसे तीन भागों में बाँटकर समझा जा सकता है-
§ पूर्व-नियोजन
(अ)
आकार-प्रकार का निर्धारण : आकार-प्रकार का निर्धारण
निम्नलिखित आधारों पर किया जाता है-
v उद्देश्य
: क्यों कर रहे हैं? किस प्रकार की प्रणाली के लिए?
v समयावधि
: कितने दिनों/वर्षों में करना है?
v मानव-संसाधन
: कितने लोग है?
v अन्य
संसाधन : कंप्यूटर/लैपटॉप, स्मार्टफोन, रिकार्डर आदि
v ..............
आदि
(आ)
पाठ स्रोतों का चयन
इसमें कार्पस निर्माणकर्ता द्वारा यह निर्धारित
किया जाता है कि कहाँ-कहाँ से और किस-किस प्रकार के पाठ लिए जाएँगे-
v वाचिक
कार्पस के लिए- भौगोलिक क्षेत्रों और सूचकों (Informants) का निर्धारण, सामग्री के रूपों का निर्धारण, जैसे- वार्ता, गीत, कथा आदि।
v लिखित
कार्पस के लिए- डाटा स्रोतों का चयन- पुस्तकें, पत्रिकाएँ, समाचार-पत्र, पांडुलिपियाँ, हस्तलिखित
प्राचीन सामग्री आदि।
(इ) पाठ-सामग्री का चयन
जो
स्रोत निर्धारित हो चुके हैं, उनमें से एक निश्चित पाठ
या खंड को चिह्नित करना, जैसे- 10 पृष्ठ की कहानी में से पहले
‘1000 शब्द’ या बीच के ‘1000 शब्द’ या अंत के ‘1000 शब्द’ आदि। यह बात ‘वाचिक कार्पस’ और
‘लिखित कार्पस’ दोनों के लिए लागू होती
है।
§ कार्पस-निर्माण
(अ)
सामग्री का संकलन
(आ)
उपयुक्त इनकोडिंग प्रणाली का चयन
(इ)
उस प्रणाली का प्रयोग करते हुए कार्पस का निर्माण
(ई)
कार्पस एनोटेशन
§ कार्पस-अनुरक्षण
(Maintenance)
(अ)
कार्पस का ठीक तरीके से संग्रहण
(आ)
आवश्यकतानुसार संशोधन/परिवर्धन या अद्यतन
(ग) कार्पस एनोटेशन
किसी कार्पस में संकलित सामग्री के साथ आवश्यक
भाषिक सूचनाएँ जोड़ना कार्पस-एनोटेशन कहलाता है। यह विविध भाषावैज्ञानिक स्तरों और रूपों
के अनुसार होता है, जैसे- रूपिमिक एनोटेशन, वाक्यात्मक एनोटेशन, आर्थी एनोटेशन, शैलीवैज्ञानिक एनोटेशन आदि।
(घ) कार्पस आधारित प्रणालियों का विकास
कार्पस निर्माण का मूल उद्देश्य ‘सांख्यिकीय अथवा मशीनी अधिगम प्रणालियों का विकास’ करना
है। ऐसी प्रणालियों में ‘कार्पस’ आधार भाषायी
सामग्री का काम करता है। कार्पस भाषाविज्ञान में इस उद्देश्य की पूर्ति हेतु भाँति-भाँति
के कार्पस बनाए जाते हैं। किसी कार्पस का स्वरूप इस आधार पर भी बदल जाता है कि उसका
प्रयोग किस प्रकार की प्रणाली के विकास के
लिए किया जाएगा। उदाहरण के लिए वाक् से पाठ (STT) प्रणाली के
लिए निर्मित किया जाने वाला कार्पस अलग प्रकार का होगा, जबकि
मशीनी अनुवाद (MT) या कंप्यूटर साधित भाषा अधिगम/शिक्षण (CALL/CALT)
जैसे कार्यों के लिए निर्मित किया जाने वाला कार्पस अलग प्रकार का होगा?
No comments:
Post a Comment