Total Pageviews

Sunday, March 13, 2022

कार्पस भाषाविज्ञान (Corpus Linguistics)

 कार्पस भाषाविज्ञान (Corpus Linguistics)

कार्पस भाषाविज्ञान भाषाओं के कार्पस आधारित अध्ययन और मशीनी अनुप्रयोग प्रणालियों के विकास संबंधित एक अंतरानुशासनिक ज्ञानशाखा है। इसमें एक ओर भाषाविज्ञान है, जो इसका सैद्धांतिक पक्ष है, दूसरी ओर सांख्यिकी विज्ञान (Statistics) है, मशीनी अनुप्रयोग से संबंधित है।

कार्पस भाषाविज्ञान के आने वाले कुछ प्रमुख बिंदु इस प्रकार हैं-

(क) कार्पस क्या है?

§  कार्पस की अवधारणा

§  कार्पस की परिभाषा

§  कार्पस की विशेषताएँ

§  कार्पस की उपयोगिता

 (ख) कार्पस निर्माण प्रक्रिया

इसे तीन भागों में बाँटकर समझा जा सकता है-

§  पूर्व-नियोजन

(अ) आकार-प्रकार का निर्धारण : आकार-प्रकार का निर्धारण निम्नलिखित आधारों पर किया जाता है-

v उद्देश्य : क्यों कर रहे हैं? किस प्रकार की प्रणाली के लिए?

v समयावधि : कितने दिनों/वर्षों में करना है?

v मानव-संसाधन : कितने लोग है?

v अन्य संसाधन : कंप्यूटर/लैपटॉप, स्मार्टफोन, रिकार्डर आदि

v .............. आदि

(आ) पाठ स्रोतों का चयन

इसमें कार्पस निर्माणकर्ता द्वारा यह निर्धारित किया जाता है कि कहाँ-कहाँ से और किस-किस प्रकार के पाठ लिए जाएँगे-

v वाचिक कार्पस के लिए- भौगोलिक क्षेत्रों और सूचकों (Informants) का निर्धारण, सामग्री के रूपों का निर्धारण, जैसे- वार्ता, गीत, कथा आदि।

v लिखित कार्पस के लिए- डाटा स्रोतों का चयन- पुस्तकें, पत्रिकाएँ, समाचार-पत्र, पांडुलिपियाँ, हस्तलिखित प्राचीन सामग्री आदि।

(इ) पाठ-सामग्री का चयन

जो स्रोत निर्धारित हो चुके हैं, उनमें से एक निश्चित पाठ या खंड को चिह्नित करना, जैसे- 10 पृष्ठ की कहानी में से पहले ‘1000 शब्द या बीच के ‘1000 शब्द या अंत के ‘1000 शब्द आदि। यह बात वाचिक कार्पस और लिखित कार्पस दोनों के लिए लागू होती है।

§  कार्पस-निर्माण

(अ) सामग्री का संकलन

(आ) उपयुक्त इनकोडिंग प्रणाली का चयन

(इ) उस प्रणाली का प्रयोग करते हुए कार्पस का निर्माण

(ई) कार्पस एनोटेशन

§  कार्पस-अनुरक्षण (Maintenance)

(अ) कार्पस का ठीक तरीके से संग्रहण

(आ) आवश्यकतानुसार संशोधन/परिवर्धन या अद्यतन

(ग) कार्पस एनोटेशन

किसी कार्पस में संकलित सामग्री के साथ आवश्यक भाषिक सूचनाएँ जोड़ना कार्पस-एनोटेशन कहलाता है। यह विविध भाषावैज्ञानिक स्तरों और रूपों के अनुसार होता है, जैसे- रूपिमिक एनोटेशन, वाक्यात्मक एनोटेशन, आर्थी एनोटेशन, शैलीवैज्ञानिक एनोटेशन आदि।

(घ) कार्पस आधारित प्रणालियों का विकास

कार्पस निर्माण का मूल उद्देश्य सांख्यिकीय अथवा मशीनी अधिगम प्रणालियों का विकास करना है। ऐसी प्रणालियों में कार्पस आधार भाषायी सामग्री का काम करता है। कार्पस भाषाविज्ञान में इस उद्देश्य की पूर्ति हेतु भाँति-भाँति के कार्पस बनाए जाते हैं। किसी कार्पस का स्वरूप इस आधार पर भी बदल जाता है कि उसका प्रयोग किस प्रकार की प्रणाली  के विकास के लिए किया जाएगा। उदाहरण के लिए वाक् से पाठ (STT) प्रणाली के लिए निर्मित किया जाने वाला कार्पस अलग प्रकार का होगा, जबकि मशीनी अनुवाद (MT) या कंप्यूटर साधित भाषा अधिगम/शिक्षण (CALL/CALT) जैसे कार्यों के लिए निर्मित किया जाने वाला कार्पस अलग प्रकार का होगा?

कार्पस के आधार पर मशीनी प्रणालियों का विकास करना, कार्पस भाषाविज्ञान का अनुपयुक्त पक्ष है| यह काम मूल रूप से कार्पस भाषाविज्ञान के अंतर्गत नहीं आता, किंतु कार्पस का विकासकर्ता तकनीकी और मशीनी अधिगम के विशेषज्ञों के साथ मिलकर प्रणालियों के विकास संबंधी कार्य भी कर सकता है।

No comments:

Post a Comment