Total Pageviews

Friday, November 11, 2016

भाषाविज्ञान का सैद्धांतिक, अनुप्रयुक्त एवं तकनीकी पक्ष (Theoretical, Applied and Technological Aspect of Linguistics)

डॉ. धनजी प्रसाद (2011)
प्रिय साहित्य सदन, सोनिया विहार, दिल्ली  110094


भूमिका



भाषाविज्ञान मानविकी के विषयों में सर्वाधिक वैज्ञानिक और विज्ञानों में सर्वाधिक मानवीय है। अत: भाषाविज्ञान एक ओर भाषा शिक्षण, अनुवाद, कोश निर्माण, साहित्य समीक्षा, वाकदोष चिकित्सा तथा भाषा नियोजन जैसे भाषा केंद्रित मानवीय कार्य व्यापारों में अनुप्रयुक्त होता है तो दूसरी ओर नितांत मानवीय सत्ता के बावजूद भाषा की रूपात्मक, तार्किक संरचना के गणितवत्स स्वरूप के कारण मानव-मशीन अंतरापृष्ठ का आधार बनकर भाषा प्रौद्योगिकी और भाषा अभियांत्रिकी के उपकारक शास्त्र के रूप में कम्प्यूटर साधित भाषा शिक्षण, अनुवाद, कोश निर्माण, वाक् से पाठ एवं पाठ से वाक् जैसे अनेक उपयोगी अनुप्रयोगों को संभव बनाता है।
स्वायत्त व्यवस्था के रूप में भाषा के अध्ययन – सूक्ष्म भाषाविज्ञान तथा उसके अंतरानुशासनिक अध्ययन-क्षेत्रों, अनेकविध अनुप्रयोग क्षेत्रों तथा कम्प्यूटर साधित विभिन्न प्रणालियों के विकास की दृष्टि से भाषाविज्ञान के इस विस्तार – वृहत भाषाविज्ञान के अध्ययन के लिए प्रवृत्त नवागत छात्रों के लिए अध्ययन हेतु अंग्रेजी पुस्तकें प्राय: दुर्बोध या दुष्प्राप्य होती हैं। हिंदी में उपर्युक्त व्याप्ति वाली पुस्तकों का अभाव है। भाषाविज्ञान के हिंदी छात्रों की इन कठिनाइयों को ध्यान में रखते हुए भाषा प्रौद्योगिकी विभाग, भाषा विद्यापीठ, महात्मा गांधी अंतरराष्ट्रीय हिंदी विश्वविद्यालय, वर्धा के हमारे छात्र एवं शोधार्थी श्री धनजी प्रसाद ने भाषाविज्ञान का सैद्धांतिक, अनुप्रयुक्त एवं तकनीकी पक्ष की रचना की है।
यह पुस्तक केवल पुस्तकीय सूचनाओं पर आधारित नहीं है अपितु लेखक द्वारा शिक्षकों एवं विषय-विशेषज्ञों से निरंतर परिप्रश्नों से संचित ज्ञान पर आधारित है। हम उनके इस प्रयास की सराहना करते हैं। इस आरंभिक प्रयास की गुणवत्ता को देखते हुए हमें उनसे अनेक अपेक्षाएँ हैं। आशा है भाषाविज्ञान के क्षेत्र में कदम रखने वाले हिंदी छात्रों के लिए यह पुस्तक उपयोगी सिद्ध होगी और उन्हें इस विषय के गहन अध्ययन के लिए प्रेरित करेगी।

         उमाशंकर उपाध्याय
                                       प्रोफेसर एवं विभागाध्यक्ष (भाषा प्रौद्योगिकी विभाग) एवं,
       अधिष्ठाता (भाषा विद्यापीठ)
म.गां.अं.हिं.वि.वि., वर्धा




आमुख


भाषा मनुष्य के साथ जुड़ी हुई एक नैसर्गिक शक्ति है जो प्रकृति द्वारा उसे सहजात रूप से दी गई है। मनुष्य द्वारा विचार करने, किसी विचार को एक से अधिक व्यक्तियों तक संप्रेषित करने एवं विचारों तथा अनुभवों को ज्ञान के रूप में संचित करने का कार्य भाषा के कारण ही किया जा सका है जिसके फलस्वरूप समाज और सभ्यताओं का विकास संभव हो सका है।
मनुष्य की स्वाभाविक प्रवृत्ति यह है कि वह अपने से जुड़ी प्रत्येक वस्तु, प्रक्रिया एवं क्षेत्र के बारे में जानने के लिए सदैव जिज्ञासु रहता है और अपनी क्षमता के अनुसार इनका सुव्यवस्थित, सुगठित एवं क्रमबद्ध विश्लेषण करता है। भाषा भी इससे अछूती नहीं है। मानव सभ्यता के विकास के साथ-साथ भाषिक इकाइयों, शब्द-अर्थ संबंध एवं भाषिक संप्रेषण पर विभिन्न दार्शनिकों और विद्वानों द्वारा किए गए सुस्पष्ट विवेचन एवं व्याख्याओं को देखा जा सकता है। भारत में तो यह कार्य संस्कृत काल में ही उन्नति के शिखर पर था। यूरोप और अमेरिका में यह सर विलियम जोंस, एफ. डी. सस्यूर और लियोनार्ड ब्लूमफिल्ड से होता हुआ नोएम चॉम्स्की तक निरंतर प्रगति के पथ पर अग्रसर है।
तकनीकी के क्षेत्र में विकास मानव सभ्यता के विकास की उन्नत कड़ी है जो इसे निरंतर वैभवपूर्ण बनाती जा रही है। पिछले 60 सालों में तो इसने चमत्कारिक प्रगति की है जिसमें संगणक (computer) का आगमन क्रांतिकारी घटना है। मानव व्यवहार के क्षेत्रों में संगणक और अन्य तकनीकी मशीनों ने इतनी गहरी पैठ बना ली है कि प्रत्येक विज्ञान के सैद्धांतिक ज्ञान का इन क्षेत्रों में अधिक से अधिक अनुप्रयोग करने का प्रयास किया जा रहा है। भाषाविज्ञान भी इस कार्य में पीछे नहीं है। भाषावैज्ञानिक ज्ञान की उपयोगिता मानव जीवन के व्यावहारिक क्षेत्रों में निर्विवाद है, किंतु इसके साथ-ही-साथ इसका अनुप्रयोग तकनीकी क्षेत्रों में संगणक और अन्य अंकीय मशीनों (digital machines) में भी विभिन्न सॉफ्टवेयर प्रणालियों के माध्यम से किया जा रहा है जिससे इसके अनुप्रयोग क्षेत्रों में एक नया आयाम जुड़ गया है। अतः भाषाविज्ञान पर सैद्धांतिक और अनुप्रयुक्त दृष्टि से चिंतन के साथ-साथ तकनीकी अनुप्रयोग की दृष्टि से चिंतन भी वर्तमान समय की मांग है।
भाषा विज्ञान के तकनीकी पक्ष पर हिंदी में पुस्तकों की अनुपलब्धता को देखते हुए प्रस्तुत पुस्तक में भाषावैज्ञानिक ज्ञान के तकनीकी अनुप्रयोग से संबंधित विविध पक्षों पर परिचयात्मक प्रकाश डाला गया है। किंतु भाषा विज्ञान के तकनीकी पक्ष को समझने से पूर्व इसके सैद्धांतिक और अनुप्रयुक्त पक्ष पर भी विचार करना आवश्यक हो जाता है जिससे कि विवेचन में सात्तय और संपूर्णता आ जाए।
इन बातों को ध्यान में रखते हुए प्रस्तुत पुस्तक को दो खंडों में विभाजित किया गया है, खंड - क भाषाविज्ञान: सैद्धांतिक एवं अनुप्रयुक्त पक्ष तथा खंड - ख तकनीकी पक्ष एवं अनुप्रयोग। भाषाविज्ञान के सैद्धांतिक पक्ष पर किए गए चिंतन को अधिक से अधिक संक्षिप्त रखने का प्रयास किया गया है एवं विवेचन हेतु नवीन दृष्टि अपनाई गई है। इसमें भाषा को कथ्य और अभिव्यक्ति के संबंधों पर आधारित ऐसी व्यवस्था के रूप में देखा गया है जिसकी सत्ता अमूर्त होती है तथा जो स्वनों को अर्थ से जोड़ने का कार्य करती है। भाषाविज्ञान की विभिन्न शाखाओं में इसका अध्ययन अभिव्यक्ति व्यवस्था और कथ्य व्यवस्था के रूप में किया जाता है।
अनुप्रयोग वह प्रक्रिया है जो प्रत्येक सैद्धांतिक ज्ञान को व्यावहारिकता प्रदान करती है। भाषावैज्ञानिक ज्ञान के अनुप्रयोगों को प्रस्तुत पुस्तक में तीन वर्गों में वर्गीकृत करके देखने का प्रयास किया गया है : व्यावहारिक अनुप्रयोग, अंतरानुशासनिक अनुप्रयोग और तकनीकी अनुप्रयोग। भाषा शिक्षण, अनुवाद, कोशविज्ञान, भाषा नियोजन और वाक् तथा भाषा व्याधि चिकित्सा ऐसे क्षेत्र हैं जो भाषावैज्ञानिक ज्ञान को सीधे-सीधे व्यावहारिक अनुप्रयोग का धरातल प्रदान करते हैं। इनके अतिरिक्त समाजभाषाविज्ञान, मनोभाषाविज्ञान, न्यूरोभाषाविज्ञान और शैलीविज्ञान ऐसे विषयक्षेत्र हैं जो अन्य ज्ञानानुशासनों के साथ जुड़ते हुए भाषा के विविध पक्षों के बारे में और अधिक ज्ञान अर्जित करते हैं। इन सभी को इस पुस्तक में समाविष्ट किया गया है और इनके अंतर्गत जिन शीर्षकों पर हिंदी में पर्याप्त सामग्री उपलब्ध है उनका उल्लेख मात्र करते हुए इन विषयों के संबंध में नवीन संकल्पनाओं को अधिक से अधिक विवेचित करने का प्रयास किया गया है।
तकनीकी आधुनिक ज्ञान विज्ञान के क्षेत्र में एक नवीन पक्ष है जो मुख्यत: स्वचलित इंजनों, विद्युतिक मशीनों, औजारों (tools), प्रणालियों (systems) और उपकरणों (instruments) के विकास और प्रयोग से जुड़ा हुआ है। इस क्षेत्र में भी भाषावैज्ञानिक ज्ञान की महत्ता को देखते हुए प्रस्तुत पुस्तक के खण्ड-ख तकनीकी पक्ष एवं अनुप्रयोग में भाषाविज्ञान के तकनीकी पक्ष को सूचना प्रौद्योगिकी और अभियांत्रिकी (information technology and engineering) से जोड़ते हुए देखने का प्रयास किया गया है। इसके अतिरिक्त प्राकृतिक भाषा संसाधन (NLP) और विभिन्न अनुप्रयोग क्षेत्रों : मशीनी अनुवाद, प्रकाशिक अक्षर संज्ञान, पाठ से वाक् और वाक् से पाठ, संगणकीय कोशविज्ञान एवं सूचना प्रत्ययन आदि को समुचित स्थान दिया गया है। इसके साथ ही भाषाविज्ञान और तकनीकी के संयोग से उत्पन्न नवीन क्षेत्र कार्पस भाषाविज्ञान एवं समस्त मानव मेधा को आत्मसात कर मशीन में स्थापित करने की ओर अग्रसर कृत्रिम बुद्धि को भी इसमें सम्मिलित किया गया है।
पुस्तक के अंतिम भाग संदर्भ एवं परिशिष्ट में विवेचन से संबंधित आवश्यक सूचनाएँ दी गई हैं। भाषाविज्ञान के सैद्धांतिक, अनुप्रयुक्त और तकनीकी पक्ष से जुड़ी नवीन संकल्पनाओं के लिए यथासंभव वैज्ञानिक एवं तकनीकी शब्दावली आयोग द्वारा मान्य शब्दावली का प्रयोग किया गया है किंतु जहाँ पर ये शब्द अपर्याप्त सिद्ध हुए हैं वहाँ कुछ नवीन पारिभाषिक शब्दों की रचना भी की गई है। इन सभी को पुस्तक के अंत में अंग्रेजी-हिंदी पारिभाषिक शब्दावली शीर्षक के अंतर्गत दिया गया है इसके अतिरिक्त आवश्यकतानुसार लिप्यंतरण करने और रोमन लिपि में ही लिख देने का  कार्य भी किया गया है।
प्रस्तुत पुस्तक की भूमिका श्रद्धेय गुरुवर प्रो. उमाशंकर उपाध्याय ने लिखकर मुझे उपकृत किया। मैं उनका चिरऋणी हूँ। इसके साथ ही मैं परम पूज्य गुरुवर डॉ. अनिल कुमार पाण्डेय के प्रति हार्दिक कृतज्ञता व्यक्त करता हूँ जिन्होंने इस पुस्तक पर अपनी सारगर्भित टिप्पणी कर मुझे प्रोत्साहित किया। इसके साथ ही मैं उनकी पत्नी श्रीमती आशा पाण्डेय (चाची) का हृदय से आभार व्यक्त करता हूँ जिन्होंने मुझे पुत्र के समान मानते हुए स्नेह एवं प्यार दिया। मैं आदरणीय प्रो. महेंद्र कुमार सी. पाण्डेय, डॉ. हरीश ए. हुनगुंद एवं डॉ. अनिल दुबे का हार्दिक आभार व्यक्त करता हूँ जिन्होंने निरंतर मेरा मार्गदर्शन किया।
किसी भी व्यक्ति द्वारा विद्यार्थी और शोधार्थी जीवन में बड़े कार्य को पूर्ण करने में मित्रों की महत्वपूर्ण भूमिका होती है। अत: यहाँ पर अपने दो दोस्तों प्रवीण कुमार पाण्डेय एवं रणजीत भारती का नाम न लेना मेरी धृष्टता होगी। मैं इन दोनों को हृदय से धन्यवाद देता हूँ जिन्होंने समय-समय पर विभिन्न विषयों पर चर्चा करते हुए अनेक महत्वपूर्ण सुझाव दिए। विश्वविद्यालय के सभी अध्यापक, कर्मी एवं शोधार्थी जिनका प्रत्यक्ष अथवा परोक्ष रूप से इस कार्य में सहयोग रहा है उनका मैं कृतज्ञ हूँ। मैं अपने दादा समान परम श्रद्धेय श्री बालेश्वर पाण्डेय का आभारी हूँ जिनके आशिर्वाद से यह कार्य संपन्न हो सका है। इसके साथ ही मैं अपने बड़े भाई रणजीत कुशवाहा एवं चाचाजी श्री शुभनारायण कुशवाहा के प्रति हार्दिक कृतज्ञता व्यक्त करता हूँ जिन्होंने मुझे घर की जिम्मेदारियों से मुक्त रखा और हरसंभव सहयोग किया।
अंत में महात्मा गांधी अंतरराष्ट्रीय हिंदी विश्वविद्यालय के कुलपति आदरणीय विभूति नारायण राय का हृदय से आभारी हूँ जिन्होंने इस विश्वविद्यालय में पठन-पाठन का परिवेश उपलब्ध कराया है।
सुधी पाठकों एवं विद्वजनों के सुझाव सादर आमंत्रित हैं।


धनजी प्रसाद


विषय सूची

खण्ड : क भाषाविज्ञान : सैद्धांतिक एवं अनुप्रयुक्त पक्ष
             पृ.सं.
भाषाविज्ञान : सैद्धांतिक पक्ष                                                 15
(Linguistics : Theoretical Aspect)
1.1   भाषा                                                                            15                         
1.2   मानव मस्तिष्क में भाषा                                                       18
1.3   भाषा : अमूर्त व्यवस्था                                                        25                           
1.4   भाषाविज्ञान                                                                     25
1.5   भाषाविज्ञान के प्रकार                                                         33
                                                                                  
अनुप्रयुक्त पक्ष : व्यावहरिक अनुप्रयोग                                   35
(Applied Aspect : Practical Application)                                                        
2.1   अनुप्रयोग                                                                       35            
2.2   भाषाविज्ञान का अनुप्रयुक्त पक्ष                                               35
2.3   व्यावहारिक अनुप्रयोग                                                        36

अनुप्रयुक्त पक्ष : अंतरानुशासनिक अनुप्रयोग                           63
(Applied Aspect : Interdisciplinary Application)                                                           
3.1   समाजभाषाविज्ञान                                                             65
3.2   मनोभाषाविज्ञान                                                                70
3.3   न्यूरोभाषाविज्ञान                                                               75
3.4   शैलीविज्ञान                                                                     80           

खण्ड : ख तकनीकी पक्ष एवं अनुप्रयोग
तकनीकी                                                                             89
(Technology)
4.1   तकनीकी : विविध पक्ष                                                       90
4.2   भाषाविज्ञान और तकनीकी                                                   98
·              संगणकीय भाषाविज्ञान
·              भाषा प्रौद्योगिकी
·              भाषा अभियांत्रिकी

अनुप्रयोगात्मक प्रक्रिया: प्राकृतिक भाषा संसाधन            107
(Applying Process: Natural Language Processing)
5.1   प्राकृतिक भाषा संसाधन : विविध पक्ष                                     108
5.2   प्राकृतिक संसाधन में होने वाली प्रक्रियाएँ                                  116

अनुप्रयोगात्मक क्षेत्र                                                             124
 (Applying Areas)
6.1    मशीनी अनुवाद                                                               125
6.2    प्रकाशिक अक्षर संज्ञान                                                       131
6.3    पाठ से वाक् और वाक् से पाठ                                              131
6.4    सूचना प्रत्ययन                                                                134
6.5    पाठ सारांशीकरण                                                             135
6.6    संगणकीय कोशविज्ञान                                                       136
6.7    संगणक साधित भाषा अधिगम                                             137
6.8    प्रश्न उत्तर प्रणालियाँ                                                          138
6.9    भाषा पठन एवं लेखन सहयोग                                              140
6.10  वाक् संज्ञान                                                                    141
6.11  वार्ता प्रणालियाँ                                                               141
6.12  खोज विस्तार                                                                  142
कार्पस भाषाविज्ञान                                                              144
 (Corpus Linguistics)
7.1   कार्पस                                                                           144
7.2   कार्पस भाषाविज्ञान                                                            146
7.3   कार्पस भाषाविज्ञान एवं भाषा-विश्लेषण                                    147
7.4   कार्पस के प्रकार                                                                149
7.5   कार्पस एवं ट्रीबैंक                                                              152
7.6   कार्पस का उपयोग                                                             152
कृत्रिम बुद्धि                                                                         155
(Artificial Intelligence)
8.1    बुद्धि                                                                            155
8.2    कृत्रिम बुद्धि                                                                    157
8.3    कृत्रिम बुद्धि : संक्षिप्त इतिहास                                               158
8.4    कृत्रिम बुद्धि और मानव बुद्धि                                                160
8.5    कृत्रिम बुद्धि के क्षेत्र                                                           162
8.6    बुद्धि की प्रकृति                                                               164
8.7    कृत्रिम बुद्धि और ज्ञान प्रतिरूपण                                            165                               
8.8    ज्ञान प्रतिरूपण में निरूपित ज्ञान                                             166
8.9    कृत्रिम बुद्धि और ज्ञान आभियांत्रिकी                                       168
8.10  कृत्रिम बुद्धि और ट्यूरिंग परीक्षण                                           169
8.11  कृत्रिम बुद्धि और अन्य विषय                                               171
संदर्भ एवं टिप्पणी                                                                  174
संदर्भ ग्रंथ                                                                             176
 पारिभाषिक शब्दावली                                                          181




ध्वनियों के भौतिक अध्ययन का संक्षिप्त इतिहास

भाषाविज्ञान में ध्वनि को भाषा अध्ययन की सामग्री कहा गया है। भाषा ध्वनियों का अध्ययन करने वाली भाषाविज्ञान की शाखा का नाम ध्वनिविज्ञान है। ध्वनिविज्ञान में भाषा ध्वनियों का अध्ययन उनके उच्चारण, संवहन तथा श्रवण के आधार पर किया जाता है। जब भाषा ध्वनियों का अध्ययन उनके संवहन के आधार पर उनके संवहन के आधार पर किया जाता है तो इसे भाषा ध्वनियों का भौतिक अध्ययन कहते हैं। यह अध्ययन ध्वनिविज्ञान की जिस शाखा के अंतर्गत किया जाता है उसे भौतिक ध्वनिविज्ञान कहते हैं।
ध्वनिविज्ञान में भाषा ध्वनियों का संवहन और श्रवण के आधार पर अध्ययन बहुत कम हुआ है। अत: जब हम भाषा ध्वनियों के भौतिक अध्ययन कि बात करते हैं तो इसमें सामग्री की कमी स्वाभाविक रूप से नजर आती है। जब बात इसके इतिहास की हो, तो वह बहुत ही संक्षिप्त है जिस पर हम एक नजर इस प्रकार डाल सकते हैं।
विश्व में ध्वनि तरंगों का आरम्भिक अध्ययन संगीत के क्षेत्र में ही हुआ। महान गणितज्ञ पाइथागोरस ने ध्वनि तरंगों के संदर्भ में ’हार्मोनिक ओवरटोन सीरीज’ को गणितीय अनुपातों के आधार पर प्रस्तुत किया था। अरस्तू (384-322BC) ने कहा कि ध्वनि द्वारा वायु के संकुचन और विस्तार में एक कण के दूसरे कण से टकराने पर तरंग का निर्माण होता है। 20 ई. पू. रोमन गृहशिल्पी (architect) तथा इंजिनियर विट्रूवियस ने नाट्क घरों के निर्माण में भौतिक ध्वनि तरंगों की विशेषताओं (properties) जैसे- व्याघात (interface), गूंज (echos), और कम्पन के महत्व की बात की। इससे गृह्शिल्प भौतिकी (architectural acoustics) की बात शुरू हुई।
वैज्ञानिक क्रान्ति के बाद ध्वनि तरंगों के भौतिक स्वरूप के अध्ययन में तेजी आई। गैलीलियो (1564-1642) और मर्सने (mersenne 1582-1648)  ने कम्पन्न करति हुइ तरंग के संदर्भ में नियमों को प्रस्तुत किया।
19वीं शताब्दी में जर्मन विद्वान हेमहोल्ट (helmholtz) ने शरीरवैज्ञानिक भौतिक स्वन विज्ञान (physical acoustics) पर काम किया। इसी समय इंग्लैण्ड के लार्ड रेली (Lord Rayleigh) ने ’द थियरी आफ़ साउंड’ लिखा।
20वीं शताब्दी में आवाज की रिकार्डिंग और टेलिफोन ने ध्वनि अध्ययन को नई दिशा प्रदान की। जलीय भौतिक ध्वनिविज्ञान  (underwater acoustics) का प्रयोग विश्व युद्धों के दौरान किया गया। वर्तमान में ’अल्ट्रासोनिक आवृत्ति सीमा’ (ultrasonic frequency range) ने चिकित्सा और उद्योग के क्षेत्र में इसके नये-नये प्रयोगों को बढ़ावा दिया है। इलेक्ट्रानिक्स और कम्प्यूटिंग ने इस्के अध्ययन को स्पष्टता तथा शुद्धता प्रदान की है। इसके अतिरिक्त अनेक नये-नये यन्त्रों का अविष्कार हुआ है जो इस अध्ययन में मील के पत्तथर साबित हुए हैं।

टैगिंग और टैगसेट (Tagging and Tagset)


टैगिंग (Tagging)
किसी पाठ में आए हुए शब्दों के साथ उनके शब्दवर्ग या रूप-वाक्यीय सूचनाएँ जोड़ना टैगिंग है। आरंभ में शब्दवर्ग संबंधी टैग ही जोड़े जाते थे। इस कारण टैगिंग को शब्दभेद टैगिंग कहा गया, किंतु अब शब्दभेद और प्रकार्य में अंतर के अनुसार अनेक अलग-अलग उपवर्ग भी बनाए जाते हैं। टैगिंग करने के लिए सर्वप्रथम प्रत्येक अलग प्रकार के वर्ग/उपवर्ग के लिए चिह्न निर्मित किया जाता है, जिसे टैग (Tag) कहते हैं, जैसे- जातिवाचक संज्ञा के लिए ‘NN’। टैगों के समुच्चय को टैगसेट (Tagset) कहते हैं।
टैगिंग के लिए एक टैगसेट का होना आवश्यक होता है। प्रत्येक भाषा में कुछ शब्दवर्ग समान होते हैं। अतः उनके टैग एक ही होने चाहिए। किंतु भाषा विशेष में पाए जाने वाले शब्दवर्गों के लिए स्वतंत्र टैग बनाए जा सकते हैं। टैगिंग का आरंभ कार्पस टैगिंग हुआ। पेंसिलवेनिया विश्वविद्यालय द्वारा पेन्न ट्रीबैंक (Penn Treebank) के निर्माण हेतु प्रथम टैगसेट का विकास किया गया था, जो इस प्रकार है-
1.         CC       Coordinating conjunction
2.         CD       Cardinal number
3.         DT       Determiner
4.         EX       Existential there
5.         FW       Foreign word
6.         IN        Preposition or subordinating conjunction
7.         JJ         Adjective
8.         JJR       Adjective, comparative
9.         JJS       Adjective, superlative
10.        LS        List item marker
11.        MD      Modal
12.        NN       Noun, singular or mass
13.        NNS     Noun, plural
14.        NNP     Proper noun, singular
15.        NNPS   Proper noun, plural
16.        PDT     Predeterminer
17.        POS     Possessive ending
18.        PRP      Personal pronoun
19.        PRP$    Possessive pronoun
20.        RB       Adverb
21.        RBR     Adverb, comparative
22.        RBS     Adverb, superlative
23.        RP        Particle
24.        SYM    Symbol
25.        TO       to
26.        UH       Interjection
27.        VB       Verb, base form
28.        VBD    Verb, past tense
29.        VBG    Verb, gerund or present participle
30.        VBN    Verb, past participle
31.        VBP     Verb, non-3rd person singular present
32.        VBZ     Verb, 3rd person singular present
33.        WDT    Wh-determiner
34.        WP       Wh-pronoun
35.        WP$     Possessive wh-pronoun
36.        WRB    Wh-adverb

हिंदी के लिए IIIT, हैदराबाद और CIIL , मैसूर द्वारा टैगसेट बनाए गए हैं। एक सामान्य हिंदी टैगसेट इस प्रकार हो सकता है- 

टैग
शब्दवर्ग नाम
हिंदी नाम
उदाहरण
NNP
Proper noun
व्यक्तिवाचक संज्ञा
राम, मोहन
NN
Common noun
जातिवाचक संज्ञा
लड़का, छाता
PR
Pronoun
सर्वनाम
वह, तुम
DT
Determiner
निर्धारक
यह, वह
VM
Verb Main
मुख्य क्रिया
जाना, खाता
JJ
Adjective
विशेषण
सुंदर, बुरा
RB
Adverb
क्रियाविशेषण
तेज, धीमा
QW
Question word
प्रश्नवाचक शब्द
क्या, कौन
UH
Interjection
विस्मयादिबोधक
ओह, आह
PP
Postposition
परसर्ग
ने, को
PT
Particle
निपात
ही, भी
NW
Negation word
नकारात्मक शब्द
, नहीं
DE
Date entity
दिनांक पद
20/2/2014, 20 फर. 2014
NM
Number
संख्या
01, 23785
CR
Currency
मुद्रा
$
TE
Time entity
समय पद
12:13, 01:23 PM
PM
Punctuation mark
विराम चिह्न
;
LS
Listing
सूचीकरण
1. 2.
CC
Conjunction
संयोजक
और, किंतु
PW
Postpositional word
परसर्गीय शब्द
बाद, पहले
VAX
Verb Auxiliary
सहायक क्रिया
है, था
VAS
Verb Aspectual
पक्षात्मक क्रिया
रहा, चुका
VEX
Verb Explicator
रंजक क्रिया
चल दिया, कर बैठा
CH
character
वर्ण
,
PRP
Reflexive Pronoun
स्ववाची सर्वनाम
अपना, खुद
SFW
Suffix Word
प्रत्ययात्मक शब्द
वाला, कर
CW
Compound Word
सामासिक शब्द
माता-पिता, रूप-निर्माण
DW
Duplicative Word
द्विरुक्त शब्द
पहला-पहला, चलते-चलते
किसी पाठ की टैगिंग में पाठ में आए हुए शब्दों के साथ उनके टैग कई प्रकार से जोड़े जा सकते हैं, जैसे-
उन<DEM> दिनों<NN> नील<NNP> नदी<NN> के<PP> तट<NN> पर<PP> बहुत<JJ> से<PP> तपस्वी<NN> रहा<VM> करते<VM> थे।<VAX>
उन_DEM  दिनों_NN नील_NNP नदी_NN के_PP तट_NN पर_PP बहुत_JJ से_PP तपस्वी_NN रहा_VM करते_VM थे।_VAX>
उन\DEM  दिनों\NN नील\NNP नदी\NN के\PP तट\NN पर\PP बहुत\JJ से\PP तपस्वी\NN रहा\VM करते\VM थे।\VAX>
उन| DEM  दिनों| NN नील| NNP नदी| NN के| PP तट| NN पर| PP बहुत| JJ से| PP तपस्वी| NN रहा| VM करते| VM थे।| VAX>
इसी प्रकार टैग संबंधी सामान्य पाठ की तरह भी हो सकती हैं और प्रत्येक शब्द के साथ अलग-अलग भी, जैसे-
उन_DEM 
दिनों_NN
नील_NNP
नदी_NN
के_PP
तट_NN
पर_PP
बहुत_JJ
से_PP
 तपस्वी_NN
रहा_VM
करते_VM
थे।_VAX>
एक टैग किए हुए पाठ का आउटपुट इस प्रकार होता है-

<p> उन<DEM> दिनों<NN> नील<NNP> नदी<NN> के<PP> तट<NN> पर<PP> बहुत<JJ> से<PP> तपस्वी<NN> रहा<VM> करते<VM> थे।<VAX> दोनों<JJ> ही<PT> किनारों<NN> पर<PP> कितनी<QW> ही<PT> झोपड़ियाँ<NN> थोड़ी-थोड़ी<JJ> दूर<RB> पर<PP> बनी<VM> हुई<VM> थीं।<VAX> तपस्वी<NN> लोग<NN> इन्हीं<DEM> में<PP> एकांतवास<NN> करते<VM> थे<VAX> और<CC> जरूरत<NN> पड़ने<VM> पर<PP> एक-दूसरे<PRP> की<PP> सहायता<NN> करते<VM> थे।<VAX> इन्हीं<DEM> झोंपड़ियों<NN> के<PP> बीच<PW> में<PP> जहाँ-तहाँ<RB> गिरजे<NN> बने<VM> हुए<VM> थे।<VAX> प्रायः<RB> सभी<JJ> गिरजाघरों<NN> पर<PP> सलीब<NN> का<PP> आकार<NN> दिखाई<VM> देता<VEX> था।<VAX> धर्मोत्सवों<NN> पर<PP> साधूसंत<NN> दूर-दूर<RB> से<PP> वहाँ<CC> <VM> जाते<VEX> थे।<VAX> नदी<NN> के<PP> किनारे<NN> जहाँ-तहाँ<RB> मठ<NN> भी<PT> थे।<VAX> जहाँ<CC> तपस्वी<NN> लोग<NN> अकेले<JJ> छोटी-छोटी<JJ> गुफाओं<NN> में<PP> सिद्धि<NN> प्राप्त<JJ> करने<VM> का<PP> यत्न<NN> करते<VM> थे।<VAX> </p>