कार्पस भाषाविज्ञान
(Corpus Linguistics)
धनजी प्रसाद
रणजीत भारती
प्रवीण कुमार
पाण्डेय
(2014)
प्रिय साहित्य
सदन, सोनिया विहार
नई दिल्ली - 110094
आमुख
‘कार्पस’ एक आधुनिक अवधारणा है जिसका विकास बीसवीं शताब्दी के मध्य में हुआ है। इसके विकास के पीछे मुख्य कारण कंप्यूटर का विकास और भाषाविज्ञान के क्षेत्र में अध्ययन-अध्यापन एवं उसकी उपयोगिता में निरंतर वृद्धि होना है। भाषा विश्लेषण संबंधी कार्य अत्यंत प्राचीन काल से प्राप्त होते हैं। भारत में तो संस्कृतकाल इसका स्वर्णयुग रहा है। पाणिनी आदि आचार्यों द्वारा किए गए विवेचन आज भी इतने प्रामाणिक हैं कि तकनीकी साधनों का प्रयोग करते हुए परीक्षण करने पर भी परिणाम सटीक प्राप्त होते हैं। पश्चिम या यूरोपीय देशों में इसे अरस्तु, प्लेटो आदि के शब्दार्थ संबंधी चिंतन से आरंभ माना जाता है।
कार्पस भाषाविज्ञान के उदय की पृष्ठभूमि आधुनिक भाषावैज्ञानिक चिंतन द्वारा निर्मित की गई है। भाषाविज्ञान को आधुनिक स्वरूप प्रदान करने वाले विद्वानों में एफ.डी. सस्यूर, लियोनार्ड ब्लूमफील्ड और नोएम चॉम्स्की का नाम सबसे ऊपर है। जहाँ सस्यूर ने भाषा को संकेतक (signifier) और संकेतित (signified) के संबंधों में निहित प्रतीकों की व्यवस्था के रूप में स्थापित करते हुए भाषिक विश्लेषण को उचित दिशा प्रदान की, वहीं ब्लूमफील्ड ने इसे एक व्यावहारिक स्वरूप प्रदान किया। किंतु भाषा विश्लेषण एवं विवेचन को गणितीय रूप में प्रस्तुत करने का श्रेय चॉम्स्की को जाता है जिन्होंने भाषिक नियमों की प्रजनक (generative) क्षमता की ओर संकेत किया। यद्यपि चॉम्स्की द्वारा कार्पस जैसी किसी इकाई के माध्यम से भाषा विश्लेषण अथवा समस्त भाषिक वाक्यों के प्रजनन को असंभव बताया है किंतु उनके सिद्धांत ‘रूपांतरक प्रजनक व्याकरण’ (Transformational Generative Grammar) के आगमन के लगभग तत्काल बाद कार्पस के क्षेत्र में हुए कार्यों एवं उन पर आधारित मशीनी प्रणालियों की सफलता ने चॉम्स्की की धारणा पर प्रश्नचिह्न जरूर लगा दिया है।
कार्पस न केवल किसी भाषा के प्रतिनिधि एवं प्रामाणिक पाठों का विशाल संग्रह है बल्कि किसी भाषा में प्राप्त सभी प्रकार की भाषिक रचनाओं (जैसे: शब्द, पदबंध, वाक्य आदि) के गठन को प्रामाणिक रूप से समझने-समझाने का साधन भी है। मशीन में संग्रहीत होने एवं मशीन-पठनीय रूप में होने के कारण इनका प्रचालन एवं इनके आधार पर भाषिक निष्कर्षों को प्राप्त करना सरल होता है। हाँ इसके लिए आवश्यक सॉफ्टवेयर (जैसे: कॉन्कार्डेंस प्रोग्राम आदि) का होना आवश्यक होता है। कार्पस पाठों का बहुत विशाल संग्रह होता है अत: उसमें किसी भी प्रकार की सामग्री के लिए मैनुअल सर्च अपेक्षाकृत कठिन कार्य होता है। किसी कार्पस में खोज अथवा उसके प्रयोग से संबंधित कार्य कैसे किया जाए? यह बहुत हद तक उस कार्पस के स्वरूप एवं आकार पर निर्भर करता है। किंतु इसके लिए कार्पस से संबंधित आधारभूत बातों का ज्ञान होना आवश्यक है जिसे ध्यान में रखते हुए प्रस्तुत पुस्तक का लेखन किया गया है। यह पुस्तक आपको कार्पस एवं कार्पस से संबंधित कार्यों से परिचित कराती है।
कार्पस भाषाविज्ञान अपेक्षाकृत में एक नवीन विषय है। अत: इस क्षेत्र से संबंधित सामग्री सभी भाषाओं में उपलब्ध नहीं है। जैसा कि अन्य प्रमुख विज्ञानों की तरह इसका आरंभ भी अमेरिका या यूरोपीय देशों में हुआ है। अत: अँग्रेज़ी में सामग्री उपलब्ध होना स्वाभाविक है। किंतु इस संबंध में यदि हम हिंदी या अन्य भारतीय भाषाओं की बात करें तो इनमें एक रिक्तता प्राप्त होती है। ऐसी स्थिति को देखते हुए ही प्रस्तुत पुस्तक हिंदी में लिखी गई है जिससे कि हिंदी माध्यम से ‘कार्पस’ एवं ‘कार्पस भाषाविज्ञान’ को जाना जा सके। वैसे नवीन विषय होने के बावजूद कार्पस भाषाविज्ञान का क्षेत्र अत्यंत विस्तृत हो गया है। अत: इससे संबंधित समस्त सामग्री को एक पुस्तक में समेटना भी संभव नहीं दिखता है। इस कारण इस पुस्तक में आधारभूत और परिचयात्मक सामग्री का विशेष ध्यान रखा गया है। उपयोगिता एवं आवश्यकता के अनुसार विभिन्न शीर्षकों एवं बिंदुओं की विस्तृत विवेचना भी की गई है।
इस प्रकार देखा जाए तो पुस्तक के प्रथम अध्याय में कार्पस के स्वरूप विवेचन के साथ इसकी मूल विशेषताओं को संकेतित किया गया है। कार्पस को समझने के लिए उसके स्वरूप, निर्माण प्रक्रिया, प्रकार एवं उपयोगिता आदि सभी पक्षों पर इसमें आवश्यक चर्चा की गई है। कार्पस भाषाविज्ञान आज भाषाविज्ञान को एक नई दिशा देता हुआ हमारे सम्मुख उपस्थित हुआ है। अत: इसके स्वरूप, एक भाषाविज्ञान के रूप में इसकी स्थिति, इसका इतिहास आदि सभी को प्रस्तुत पुस्तक में प्राप्त किया जा सकता है। साथ-ही कार्पस के भाषिक विश्लेषण में कॉन्कार्डेंस प्रोग्राम के प्रयोग को देखते हुए इसका भी संक्षिप्त परिचय दिया गया है।
कार्पस निर्माण अपने आप में एक बहुत बड़ा कार्य है। किंतु केवल एक विशाल संग्रह के रूप में निर्मित कार्पस भाषावैज्ञानिक विश्लेषण अथवा टूल विकास आदि के लिए बहुत उपयोगी नहीं है। इसके लिए कार्पस में कुछ प्रक्रियाएँ करनी होती हैं, जैसे: कार्पस टैगिंग, कार्पस एनोटेशन आदि। यह पुस्तक इन प्रक्रियाओं का भी विस्तृत परिचय देती है जिससे कि पाठक इनके संबंध में समुचित समझ विकसित कर सकें। टैगिंग में टैगसेट, टैंगिंग विधि आदि एवं एनोटेशन में भाषा के विविध स्तरों पर किए जाने वाले एनोटेशन को विस्तार से समझाया गया है। इनके अलावा विश्व में अभी तक निर्मित कुछ महत्वपूर्ण कार्पसों का विस्तृत विवेचन भी इस पुस्तक में देखा जा सकता है। इस क्रम में सबसे पहले अँग्रेज़ी के प्रसिद्ध कार्पसों की विवेचना है एवं तदुपरांत कुछ अन्य भाषाओं के कार्पसों के बारे में भी संक्षेप में बताया गया है। जिन कार्पसों के बारे में विस्तार से चर्चा की गई है उनसे संबंधित लिंक भी आवश्यक स्थानों पर दिए गए हैं जिससे पाठक इंटरनेट का प्रयोग करते हुए और अधिक सामग्री प्राप्त कर सकें। यदि कार्पस किसी लिंक पर उपलब्ध है तो न केवल उस लिंक को दिया गया है बल्कि उस लिंक पर प्राप्त प्रमुख सामग्री को चित्रों के साथ समझाया गया है।
यदि कार्पस भाषाविज्ञान में कार्पस विश्लेषण की बात हो रही हो तो सांख्यिकीय पद्धतियों की चर्चा स्वत: महत्वपूर्ण हो जाती है। इसे ध्यान में रखते हुए पुस्तक के अंतिम अध्याय में ‘संभाव्यतात्मक (Probabilistic) सिद्धांत’ की भी विवेचना की गई है। इसमें संभाव्यता की अवधारणा, इसके आधारभूत घटक, प्रक्रिया एवं विश्लेषण विधि आदि सभी को उदाहरण सहित बताया गया है। साथ-ही संभाव्यता नियमों द्वारा भाषिक विश्लेषण की भी चर्चा की गई है।
अत: यह पुस्तक कार्पस भाषाविज्ञान के क्षेत्र में कोई नवीन मौलिक अवधारणा देने के लिए नहीं लिखी गई है। बल्कि यह हिंदी माध्यम से कार्पस भाषाविज्ञान एवं इससे सबंधित बिंदुओं, कार्यों तथा इकाइयों का विस्तृत परिचय देती है। हमें उम्मीद है कि यह आपको अवश्य पसंद आएगी। प्रस्तुत पुस्तक की भूमिका प्रो. उमाशंकर उपाध्याय ने लिखकर हमें उपकृत किया। इसके लिए हम उन्हें साधुवाद देते हैं। साथ ही पुस्तक के लेखन में मार्गदर्शन एवं सहयोग के लिए हम अपने विश्वविद्यालय के सभी संबंधित शिक्षकों का आभार व्यक्त करते हैं। इसके अलावा विश्वविद्यालय में पठन-पाठन का परिवेश उपलब्ध कराने एवं बनाए रखने के लिए हम इस विश्वविद्यालय के कुलपति के प्रति कृतज्ञता ज्ञापित करते हैं।
पुस्तक के संबंध में सुधी पाठकों एवं विद्वजनों के सुझाव सादर आमंत्रित हैं।
धनजी प्रसाद
रणजीत भारती
प्रवीण कुमार पाण्डेय
विषय
सूची
पृ.सं.
कार्पस 15
(Corpus)
1.1 कार्पस
15
1.2 कार्पस
की अवधारणापरक विशेषताएँ 16
1.3 कार्पस
निर्माण 19
1.4 कार्पस
के प्रकार
23
1.5 कार्पस
एवं ट्रीबैंक
29
1.6 कार्पस
का उपयोग
30
कार्पस भाषाविज्ञान 33
(Corpus Linguistics)
2.1 कार्पस
भाषाविज्ञान
33
2.2 कार्पस
भाषाविज्ञान और भाषाविज्ञान 34
2.3 कार्पस
भाषाविज्ञान का इतिहास 35
2. कार्पस विश्लेषण में कॉन्कार्डेंस (Concordance)
प्रोग्राम 45
कार्पस टैगिंग 47
(Corpus Tagging)
3.1 टैगिंग
47
3.2 कार्पस में POS टैगिंग 48
3.3 टैग-निर्धारण में शब्द-संक्षेप 52
3.4 शब्दों के साथ टैगों की प्रस्तुति 55
3.5 टैगसमुच्चय (टैगसेट) 56
3.6 टैगिंग पद्धति
58
3.7 कुछ
महत्वपूर्ण शब्दभेद टैगर 59
कार्पस एनोटेशन 64
(Corpus Annotation)
4.1 एनोटेशन 64
4.2 एनोटेशन के प्रकार
65
4.3 कार्पस एनोटेशन
संबंधित कुछ महत्वपूर्ण बातें 67
4.4 कार्पस एनोटेशन का
कोडीकरण
72
विश्व
के प्रमुख कार्पस 79
(Major Corpora of World)
5.1 ब्राउन कार्पस 79
5.2 लैनकेस्टर ओस्लो बर्गेन कार्पस 91
5.3 कोलिंस कोब्यूल्ड कार्पस या बैंक ऑफ इंग्लिश 100
5.4 ब्रिटिश नेशनल कॉर्पस 110
5.5 लंदन लुंड कार्पस 123
5.6 कोल्हापुर कार्पस ऑफ ईंडियन इंग्लिश 126
5.7 अन्य भाषाओं के कार्पस 129
भाषा-विश्लेषण का संभाव्यतापरक
सिद्धांत 133
(Probabilistic Theory of Language Analysis)
6.1 संभाव्यता
133
6.2 संभाव्यता नियमों संबंधी महत्वपूर्ण बिंदु 141
6.3 संभाव्यता व्याकरण या Stochastic Grammar 142
6.4 एम.एस. एक्सेस संभाव्यता सिद्धांत और भाषिक विश्लेषण 150
संदर्भ ग्रंथ 155
पारिभाषिक शब्दावली 159
No comments:
Post a Comment