Total Pageviews

Sunday, November 12, 2017

कार्पस भाषाविज्ञान


कार्पस भाषाविज्ञान
 (Corpus Linguistics)









धनजी प्रसाद
रणजीत भारती
प्रवीण कुमार पाण्डेय




(2014)
प्रिय साहित्य सदन, सोनिया विहार
नई दिल्ली - 110094



आमुख

कार्पस एक आधुनिक अवधारणा है जिसका विकास बीसवीं शताब्दी के मध्य में हुआ है। इसके विकास के पीछे मुख्य कारण कंप्यूटर का विकास और भाषाविज्ञान के क्षेत्र में अध्ययन-अध्यापन एवं उसकी उपयोगिता में निरंतर वृद्धि होना है। भाषा विश्लेषण संबंधी कार्य अत्यंत प्राचीन काल से प्राप्त होते हैं। भारत में तो संस्कृतकाल इसका स्वर्णयुग रहा है। पाणिनी आदि आचार्यों द्वारा किए गए विवेचन आज भी इतने प्रामाणिक हैं कि तकनीकी साधनों का प्रयोग करते हुए परीक्षण करने पर भी परिणाम सटीक प्राप्त होते हैं। पश्चिम या यूरोपीय देशों में इसे अरस्तु, प्लेटो आदि के शब्दार्थ संबंधी चिंतन से आरंभ माना जाता है।
कार्पस भाषाविज्ञान के उदय की पृष्ठभूमि आधुनिक भाषावैज्ञानिक चिंतन द्वारा निर्मित की गई है। भाषाविज्ञान को आधुनिक स्वरूप प्रदान करने वाले विद्वानों में एफ.डी. सस्यूर, लियोनार्ड ब्लूमफील्ड और नोएम चॉम्स्की का नाम सबसे ऊपर है। जहाँ सस्यूर ने भाषा को संकेतक (signifier) और संकेतित (signified) के संबंधों में निहित प्रतीकों की व्यवस्था के रूप में स्थापित करते हुए भाषिक विश्लेषण को उचित दिशा प्रदान की, वहीं ब्लूमफील्ड ने इसे एक व्यावहारिक स्वरूप प्रदान किया। किंतु भाषा विश्लेषण एवं विवेचन को गणितीय रूप में प्रस्तुत करने का श्रेय चॉम्स्की को जाता है जिन्होंने भाषिक नियमों की प्रजनक (generative) क्षमता की ओर संकेत किया। यद्यपि चॉम्स्की द्वारा कार्पस जैसी किसी इकाई के माध्यम से भाषा विश्लेषण अथवा समस्त भाषिक वाक्यों के प्रजनन को असंभव बताया है किंतु उनके सिद्धांत रूपांतरक प्रजनक व्याकरण (Transformational Generative Grammar) के आगमन के लगभग तत्काल बाद कार्पस के क्षेत्र में हुए कार्यों एवं उन पर आधारित मशीनी प्रणालियों की सफलता ने चॉम्स्की की धारणा पर प्रश्नचिह्न जरूर लगा दिया है।
कार्पस केवल किसी भाषा के प्रतिनिधि एवं प्रामाणिक पाठों का विशाल संग्रह है बल्कि किसी भाषा में प्राप्त सभी प्रकार की भाषिक रचनाओं (जैसे: शब्द, पदबंध, वाक्य आदि) के गठन को प्रामाणिक रूप से समझने-समझाने का साधन भी है। मशीन में संग्रहीत होने एवं मशीन-पठनीय रूप में होने के कारण इनका प्रचालन एवं इनके आधार पर भाषिक निष्कर्षों को प्राप्त करना सरल होता है। हाँ इसके लिए आवश्यक सॉफ्टवेयर (जैसे: कॉन्कार्डेंस प्रोग्राम आदि) का होना आवश्यक होता है। कार्पस पाठों का बहुत विशाल संग्रह होता है अत: उसमें किसी भी प्रकार की सामग्री के लिए मैनुअल सर्च अपेक्षाकृत कठिन कार्य होता है। किसी कार्पस में खोज अथवा उसके प्रयोग से संबंधित कार्य कैसे किया जाए? यह बहुत हद तक उस कार्पस के स्वरूप एवं आकार पर निर्भर करता है। किंतु इसके लिए कार्पस से संबंधित आधारभूत बातों का ज्ञान होना आवश्यक है जिसे ध्यान में रखते हुए प्रस्तुत पुस्तक का लेखन किया गया है। यह पुस्तक आपको कार्पस एवं कार्पस से संबंधित कार्यों से परिचित कराती है।
कार्पस भाषाविज्ञान अपेक्षाकृत में एक नवीन विषय है। अत: इस क्षेत्र से संबंधित सामग्री सभी भाषाओं में उपलब्ध नहीं है। जैसा कि अन्य प्रमुख विज्ञानों की तरह इसका आरंभ भी अमेरिका या यूरोपीय देशों में हुआ है। अत: अँग्रेज़ी में सामग्री उपलब्ध होना स्वाभाविक है। किंतु इस संबंध में यदि हम हिंदी या अन्य भारतीय भाषाओं की बात करें तो इनमें एक रिक्तता प्राप्त होती है। ऐसी स्थिति को देखते हुए ही प्रस्तुत पुस्तक हिंदी में लिखी गई है जिससे कि हिंदी माध्यम से कार्पस एवं कार्पस भाषाविज्ञान को जाना जा सके। वैसे नवीन विषय होने के बावजूद कार्पस भाषाविज्ञान का क्षेत्र अत्यंत विस्तृत हो गया है। अत: इससे संबंधित समस्त सामग्री को एक पुस्तक में समेटना भी संभव नहीं दिखता है। इस कारण इस पुस्तक में आधारभूत और परिचयात्मक सामग्री का विशेष ध्यान रखा गया है। उपयोगिता एवं आवश्यकता के अनुसार विभिन्न शीर्षकों एवं बिंदुओं की विस्तृत विवेचना भी की गई है।
इस प्रकार देखा जाए तो पुस्तक के प्रथम अध्याय में कार्पस के स्वरूप विवेचन के साथ इसकी मूल विशेषताओं को संकेतित किया गया है। कार्पस को समझने के लिए उसके स्वरूप, निर्माण प्रक्रिया, प्रकार एवं उपयोगिता आदि सभी पक्षों पर इसमें आवश्यक चर्चा की गई है। कार्पस भाषाविज्ञान आज भाषाविज्ञान को एक नई दिशा देता हुआ हमारे सम्मुख उपस्थित हुआ है। अत: इसके स्वरूप, एक भाषाविज्ञान के रूप में इसकी स्थिति, इसका इतिहास आदि सभी को प्रस्तुत पुस्तक में प्राप्त किया जा सकता है। साथ-ही कार्पस के भाषिक विश्लेषण में कॉन्कार्डेंस प्रोग्राम के प्रयोग को देखते हुए इसका भी संक्षिप्त परिचय दिया गया है।
कार्पस निर्माण अपने आप में एक बहुत बड़ा कार्य है। किंतु केवल एक विशाल संग्रह के रूप में निर्मित कार्पस भाषावैज्ञानिक विश्लेषण अथवा टूल विकास आदि के लिए बहुत उपयोगी नहीं है। इसके लिए कार्पस में कुछ प्रक्रियाएँ करनी होती हैं, जैसे: कार्पस टैगिंग, कार्पस एनोटेशन आदि। यह पुस्तक इन प्रक्रियाओं का भी विस्तृत परिचय देती है जिससे कि पाठक इनके संबंध में समुचित समझ विकसित कर सकें। टैगिंग में टैगसेट, टैंगिंग विधि आदि एवं एनोटेशन में भाषा के विविध स्तरों पर किए जाने वाले एनोटेशन को विस्तार से समझाया गया है। इनके अलावा विश्व में अभी तक निर्मित कुछ महत्वपूर्ण कार्पसों का विस्तृत विवेचन भी इस पुस्तक में देखा जा सकता है। इस क्रम में सबसे पहले अँग्रेज़ी के प्रसिद्ध कार्पसों की विवेचना है एवं तदुपरांत कुछ अन्य भाषाओं के कार्पसों के बारे में भी संक्षेप में बताया गया है। जिन कार्पसों के बारे में विस्तार से चर्चा की गई है उनसे संबंधित लिंक भी आवश्यक स्थानों पर दिए गए हैं जिससे पाठक इंटरनेट का प्रयोग करते हुए और अधिक सामग्री प्राप्त कर सकें। यदि कार्पस किसी लिंक पर उपलब्ध है तो केवल उस लिंक को दिया गया है बल्कि उस लिंक पर प्राप्त प्रमुख सामग्री को चित्रों के साथ समझाया गया है।
यदि कार्पस भाषाविज्ञान में कार्पस विश्लेषण की बात हो रही हो तो सांख्यिकीय पद्धतियों की चर्चा स्वत: महत्वपूर्ण हो जाती है। इसे ध्यान में रखते हुए पुस्तक के अंतिम अध्याय में संभाव्यतात्मक (Probabilistic) सिद्धांत की भी विवेचना की गई है। इसमें संभाव्यता की अवधारणा, इसके आधारभूत घटक, प्रक्रिया एवं विश्लेषण विधि आदि सभी को उदाहरण सहित बताया गया है। साथ-ही संभाव्यता नियमों द्वारा भाषिक विश्लेषण की भी चर्चा की गई है।
अत: यह पुस्तक कार्पस भाषाविज्ञान के क्षेत्र में कोई नवीन मौलिक अवधारणा देने के लिए नहीं लिखी गई है। बल्कि यह हिंदी माध्यम से कार्पस भाषाविज्ञान एवं इससे सबंधित बिंदुओं, कार्यों तथा इकाइयों का विस्तृत परिचय देती है। हमें उम्मीद है कि यह आपको अवश्य पसंद आएगी। प्रस्तुत पुस्तक की भूमिका प्रो. उमाशंकर उपाध्याय ने लिखकर हमें उपकृत किया। इसके लिए हम उन्हें साधुवाद देते हैं। साथ ही  पुस्तक के लेखन में मार्गदर्शन एवं सहयोग के लिए हम अपने विश्वविद्यालय के सभी संबंधित शिक्षकों का आभार व्यक्त करते हैं। इसके अलावा विश्वविद्यालय में पठन-पाठन का परिवेश उपलब्ध कराने एवं बनाए रखने के लिए हम इस विश्वविद्यालय के कुलपति के प्रति कृतज्ञता ज्ञापित करते हैं।
पुस्तक के संबंध में सुधी पाठकों एवं विद्वजनों के सुझाव सादर आमंत्रित हैं।

धनजी प्रसाद
रणजीत भारती
      प्रवीण कुमार पाण्डेय


विषय सूची


                                                                                                      पृ.सं.
कार्पस                                                                                                 15
(Corpus)
1.1 कार्पस                                                                                    15
1.2 कार्पस की अवधारणापरक विशेषताएँ                                         16
1.3 कार्पस निर्माण                                                                          19
1.4 कार्पस के प्रकार                                                                                       23
1.5 कार्पस एवं ट्रीबैंक                                                                                     29 
1.6 कार्पस का उपयोग                                                                    30
कार्पस भाषाविज्ञान                                                                               33
 (Corpus Linguistics)
2.1 कार्पस भाषाविज्ञान                                                                                   33
2.2 कार्पस भाषाविज्ञान और भाषाविज्ञान                                                           34
2.3 कार्पस भाषाविज्ञान का इतिहास                                                 35
2. कार्पस विश्लेषण में कॉन्कार्डेंस (Concordance) प्रोग्राम                               45
कार्पस टैगिंग                                                                 47
(Corpus Tagging)
3.1 टैगिंग                                                                                                       47
3.2 कार्पस में POS टैगिंग                                                                                48
3.3 टैग-निर्धारण में शब्द-संक्षेप                                                                         52
3.4 शब्दों के साथ टैगों की प्रस्तुति                                                                     55
3.5 टैगसमुच्चय (टैगसेट)                                                                 56
3.6 टैगिंग पद्धति                                                                                             58
3.7 कुछ महत्वपूर्ण शब्दभेद टैगर                                                                       59
कार्पस एनोटेशन                                                                64
(Corpus Annotation)
4.1 एनोटेशन                                                                                                 64
4.2 एनोटेशन के प्रकार                                                                                    65
4.3 कार्पस एनोटेशन संबंधित कुछ महत्वपूर्ण बातें                                               67
4.4 कार्पस एनोटेशन का कोडीकरण                                                                   72

विश्व के प्रमुख कार्पस                                                                     79
(Major Corpora of World)
5.1 ब्राउन कार्पस                                                                           79
5.2 लैनकेस्टर ओस्लो बर्गेन कार्पस                                                                   91
5.3 कोलिंस कोब्यूल्ड कार्पस या बैंक ऑफ इंग्लिश                                           100
5.4 ब्रिटिश नेशनल कॉर्पस                                                                            110
5.5 लंदन लुंड कार्पस                                                                                    123
5.6 कोल्हापुर कार्पस ऑफ ईंडियन इंग्लिश                                         126
5.7 अन्य भाषाओं के कार्पस                                                                          129

भाषा-विश्लेषण का संभाव्यतापरक सिद्धांत                                   133
(Probabilistic Theory of Language Analysis)
6.1 संभाव्यता                                                                                                133
6.2 संभाव्यता नियमों संबंधी महत्वपूर्ण बिंदु                                                       141
6.3 संभाव्यता व्याकरण या Stochastic Grammar                                         142
6.4 एम.एस. एक्सेस संभाव्यता सिद्धांत और भाषिक विश्लेषण                            150

संदर्भ ग्रंथ                                                                                                     155

पारिभाषिक शब्दावली                                                                       159

No comments:

Post a Comment