Total Pageviews

Wednesday, February 2, 2022

हिंदी भाषा का स्वरूप : एक संगणकीय परिप्रेक्ष्य

 



हिंदी भाषा का स्वरूप : एक संगणकीय परिप्रेक्ष्य

 

डॉ. धनजी प्रसाद

सहायक प्रोफेसर, भाषा प्रौद्योगिकी

महात्मा गांधी अंतरराष्ट्रीय हिंदी विश्वविद्यालय, वर्धा

ईमेल- dhpr.langtech@gmail.com 

1. परिचय (Introduction)

भाषा मनुष्य के विचार करने और अपने विचारों का एक-दूसरे के साथ आदान-प्रदान करने का आधारभूत माध्यम है।  आज से लाखों वर्ष पहले मानव जाति के विकास के पश्चात मानव भाषा का विकास मूलतः ध्वन्यात्मक रूप में हुआ। अतः वाचिक भाषा मानव भाषा का मूल रूप है। वाचिक भाषा की अपनी सीमाएँ हैं, जिनमें एक सबसे बड़ी सीमा यह है कि उच्चारण के तुरंत बाद उच्चरित ध्वनियाँ वातावरण में विलीन हो जाती हैं। भाषा के वाचिक रूप की अधिकांश सीमाओं से मुक्ति तब मिली जब भाषा के लिखित रूप का विकास हुआ। यह भाषा व्यवहार के क्षेत्र में क्रांतिकारी बात थी। इससे भाषिक अभिव्यक्तियों को लिखित रूप में लंबे समय तक संरक्षित रख पाना अथवा जिन माध्यमों (पत्ता, कागज, कपड़ा, शिलाखंड आदि) पर लेखन किया गया है, उन्हें वक्ता से किसी भी दूरी तक पहुँचाकर संप्रेषित करने की सुविधा प्राप्त हो गई। मानव ज्ञान के सृजन और उत्तरोत्तर विकास में लेखन के अविष्कार की महती भूमिका रही है। इससे एक पीढ़ी का ज्ञान दूसरी पीढ़ी तक स्थानांतरित करना अथवा आने वाली पीढ़ियों के लिए संरक्षित करना संभव हो सका।

संगणक (कंप्यूटर) का अविष्कार मानव सभ्यता के विकासक्रम में 20वीं शताब्दी के मध्य में घटित सबसे बड़ी घटना है। संगणक (कंप्यूटर) ने मानव व्यवहार के सभी क्षेत्रों में इतनी गहरी पैठ बनाई है कि वर्तमान समय को संबोधित करते हुए हम अनायास ही कह उठते हैं- आज का समय संगणक (कंप्यूटर) का समय है। संगणक (कंप्यूटर) के साथ-साथ इंटरनेट के अविष्कार ने डिजिटल क्रांति कर दी है। आज कंप्यूटर और इंटरनेट का प्रयोग मानव जीवन के लगभग सभी क्षेत्रों में इतने गहन स्तर तक किया जाने लगा है कि बिना इसके वर्तमान मानव सभ्यता संचालित हो पाना दुष्कर जान पड़ता है। चूँकि मानव भाषा मनुष्य के सामाजिक व्यवहार का आधार है, अतः मानव व्यवहार के विविध क्षेत्रों में प्रवेश के क्रम में संगणक (कंप्यूटर) और मानव भाषा दोनों की एक-दूसरे से अंतरक्रिया हुई है। हम जानते हैं कि संगणक (कंप्यूटर) की काम करने की अपनी भिन्न भाषा है। उसे मनुष्य द्वारा समझकर याद रख पाना असंभव जैसा दुरूह है। संगणक (कंप्यूटर) की भी अपनी सीमा है कि वह मानव भाषा को समझ नहीं सकता। इसलिए सीधे-सीधे मानव भाषाओं में संगणक (कंप्यूटर) को निर्देश दे पाना अब तक संभव नहीं हो सका है। इसका प्रयास विश्व की सभी प्रमुख भाषाओं (अंग्रेजी, जर्मन, फ्रांसीसी, चीनी, जापानी आदि) के विद्वानों द्वारा पिछले कुछ दशकों से अपने-अपने स्तर पर किया जा रहा है। वर्तमान में हिंदी भाषा के संगणकीय संसाधन संबंधी प्रयास भी विभिन्न संस्थानों द्वारा व्यापक स्तर पर किए जाने लगे हैं, जिन्हें देखते हुए संगणकीय परिप्रेक्ष्य में हिंदी भाषा के वर्तमान स्वरूप से हमारा परिचय आवश्यक हो जाता है।

ऐतिहासिक विकास की दृष्टि से देखा जाए तो हिंदी एक आधुनिक आर्यभाषा है, जिसका उद्गम उस संस्कृत भाषा से हुआ है, जिसकी एक व्यापक और गंभीर चिंतन परंपरा रही है। उसे हम भारतीय भाषा चिंतन परंपरा अथवा संस्कृतकालीन चिंतन परंपरा के नाम से जानते हैं। उस समय में तत्कालीन आचार्यों और मनीषियों द्वारा भाषा और अन्य ज्ञान-विज्ञान के क्षेत्र में जो सूक्ष्मतम स्तर तक कार्य किया गया है, वह आधुनिक काल में वैज्ञानिक उपकरणों के माध्यम से सिद्ध हो पा रहा है। अतः हिंदी के संगणकीय परिप्रेक्ष्य को भारतीय भाषा चिंतन परंपरा की दृष्टि से भी देखना अपरिहार्य है। अतः आलेख के अंतिम खंड में हिंदी भाषा और इसके संगणकीय व्याकरण संबंधी परिप्रेक्ष्य को भारत की भाषा चिंतन परंपरा के संदर्भ में भी देखने का प्रयास किया गया है।

2. हिंदी भाषा का वर्तमान परिदृश्य (Current Scenario of Hindi Language)

हिंदी भारत की राजभाषा होने के साथ-साथ भारत में सबसे अधिक बोली और समझी जाने वाली भाषा है। वैसे तो हिंदी का उद्भव और विकास आधुनिक भारतीय आर्यभाषाओं के साथ 11वीं शताब्दी से ही आरंभ होता हुआ प्राप्त होता है, किंतु वास्तव में आधुनिक हिंदी का विकास 1850 के आस-पास की साहित्यिक धारा से होता है, जिसे हम भारतेंदु युग के नाम से जानते हैं। स्वतंत्रता प्राप्ति के बाद भारत के संविधान में अनुच्छेद 343 में हिंदी को राजभाषा का स्थान दिया गया और साथ ही अनुच्छेद 344 और 351 में भारत सरकार को हिंदी भाषा के विकास और राजकीय प्रयोजनों में अधिकाधिक प्रयोग की व्यवस्था करने के लिए निर्देश दिए गए हैं। स्वतंत्रता आंदोलन में अपनी भूमिका और अपनी समष्टिवादी प्रकृति के कारण हिंदी ने पिछले 07 दशकों में राजकीय प्रयोजनों में प्रयोग में उत्तरोत्तर विकास के अलावा संपूर्ण देश के लिए संपर्क भाषा अथवा lingua franca का भी कार्य किया है। साथ ही अंग्रेजी के पर्याप्त प्रभुत्व के बावजूद हिंदी में शिक्षण-प्रशिक्षण और ज्ञान-विज्ञान संबंधी सामग्री निर्माण का कार्य भी विपुल मात्रा में हुआ है। 1990 के दशक में उदारीकरण के बाद से जनसंचार माध्यमों (प्रिंट और इलेक्ट्रानिक) में हिंदी के प्रयोग में क्रांतिकारी विस्तार हुआ है और अंग्रेजी या किसी भी अन्य भाषा की तुलना में हिंदी की हिस्सेदारी सर्वाधिक रही है।

इसी दौर में भारत में भी डिजिटल क्रांति हुई है। 21वीं सदी के पहले दस वर्षों को देखा जाए तो 2001 से 2010 आते-आते इतने कम समय में कंप्यूटर/लैपटॉप धीरे-धीरे आम लोगों की पहुँच में आ गया। इसके बाद हुई स्मार्टफोन क्रांति ने कंप्यूटर की पूरी प्रणाली और इंटरनेट को हम सभी की हाथों में पहुँचा दिया है। अतः हिंदी को डिजिटल क्रांति के इस दौर में कदम-से-कदम मिलाकर चलने के लिए यह आवश्यक है कि इन डिजिटल माध्यमों पर हिंदी की सशक्त उपस्थिति हो। हिंदी के आधुनिक स्वरूप और इसके संगणकीय परिप्रेक्ष्य में डिजिटल माध्यमों पर हिंदी की उपस्थिति संबंधी सभी बातें आ जाती हैं, जिन्हें हम दो रूपों में देख सकते हैं- संगणकीय प्लेट्फॉर्म पर हिंदी में सामग्री की उपलब्धता और हिंदी के भाषायी ज्ञान (हिंदी व्याकरण) को संगणकीय संसाधन की दृष्टि से तैयार करना। आगे इन दोनों परिप्रेक्ष्यों की विस्तार से चर्चा की जा रही है।

3. संगणकीय प्लेट्फॉर्म पर हिंदी में सामग्री की उपलब्धता (The Availability of Content in Hindi on Online Plateform)

कोई भाषा इस डिजिटल संसार में टिककर आगे बढ़ेगी या पिछड़ते हुए अन्य भाषाओं के साथ संघर्ष करेगी, यह इस बात पर निर्भर करता है कि संगणकीय प्लेटफॉर्म और इंटरनेट पर उस भाषा में कितनी सामग्री है और लोगों द्वारा उसका प्रयोग कितनी मात्रा में किया जा रहा है? पिछले 05-10 वर्षों में 4G और जिओ कंपनी के आगमन से भारत में इंटरनेट उपयोग के क्षेत्र में डाटा क्रांति हुई है। इसका एक बड़ा कारण मोबाइल डाटा का सस्ता होना भी है। इसे Vidooly की इस तुलनात्मक रिपोर्ट से समझ सकते हैं-

अब प्रश्न यह है कि यदि इतनी अधिक मात्रा में लोग सामग्री खोज अथवा मनोरंजन के लिए इंटरनेट की ओर जा रहे हैं तो उन्हें किस भाषा में और कितनी सामग्री मिल पा रही है। दर्शकों के बढ़ने से ऑनलाइन सामग्री निर्माण भी बहुत तेजी से बढ़ा है, चाहे वह पाठ (Text) रूप में हो, या चित्र (Image) अथवा ऑडियो-विजुअल (Audio-Visual) रूप में। हिंदी में ऑनलाइन सामग्री की माँग बहुत अधिक है। कुछ लोग अंग्रेजी को बहुत महत्व देते हैं किंतु भारत में ऑनलाइन प्रयोग के मामले में भी वह हिंदी के सामने बहुत बौनी साबित होती है। इसे Vidooly की ही एक तुलनात्मक रिपोर्ट से समझ सकते हैं-

(स्रोत- https://www.slideshare.net/SocialSamosa/2019-digital-video-trends-a-report-by-vidooly)

अतः इस डिजिटल युग में पाठपरक और मल्टीमीडिया सामग्री इंटरनेट पर असीमित मात्रा में उपलब्ध है। आज किसी भी भाषा के प्रयोग और विस्तार को बढ़ाने के लिए उस भाषा में इंटरनेट पर सामग्री उपलब्ध होना अतिआवश्यक है। हिंदी में सभी ज्ञानक्षेत्रों में प्रचुर मात्रा में सामग्री देखी जा सकती है। यह सामग्री सभी ज्ञानक्षेत्रों, जैसे- भाषा और साहित्य, स्वास्थ्य और चिकित्सा, मीडिया (समाचार चैनल और समाचार पत्र), मनोरंजन (सिनेमा और गीत), हिंदी विकिपेडिया आदि में देखी जा सकती है। फिर भी हमें और अधिक मात्रा में ऑनलाइन सामग्री का विकास करने की आवश्यकता है क्योंकि वैश्विक स्तर पर अन्य भाषाओं की तुलना में हिंदी में सामग्री अभी भी बहुत कम है।

कुछ दिनों पहले तक ओ.टी.टी. (Over-The-Top : OTT) शब्द हमारे लिए नया नाम था, किंतु सस्ते इंटरनेट और स्मार्टफोन डिवाइसों की उपलब्धता के कारण भारतीय दर्शक वर्ग अब पारंपरिक केबल/डी.टी.एच. आदि माध्यम से टी.वी. देखने के बजाए ओ.टी.टी. का प्रयोग अधिक करने लगा है। कोविड महामारी ने भी हम सभी को ऑनलाइन मनोरंजन की ओर बढ़ने के लिए बाध्य किया है। ब्रॉडकास्ट ऑडियंस रिसर्च काउंसिल (बीएआरसी) की हालिया रिपोर्ट के अनुसार, भारत में टीवी का प्रयोग कोविड-19 की अवधि में 38 प्रतिशत बढ़ा है । ओ.टी.टी. संबंधी सर्वेक्षण में स्पष्ट हुआ है कि कोविड-19 के कारण हो रही परेशानी ने स्ट्रीमिंग सर्विस के साथ-साथ शिक्षा ऐप्स को भी बढ़ावा दिया है। दर्शकों द्वारा चुने गए टॉप कंटेंट में फिक्शन, थ्रिलर, इतिहास, समाचार, सुपरनेचुरल और पौराणिक कथाएं  शामिल हैं। (संदर्भ- https://hindi.sakshi.com/news/entertainment/big-boom-television-and-ott-market-during-lockdown-78514) ओ.टी.टी. प्लेटफॉर्म पर भी भारत में अभी हिंदी शीर्ष पर है, किंतु अभी आगे निरंतर और अधिक काम करते रहने की आवश्यकता है।

4. हिंदी व्याकरण और संगणकीय संसाधन (Hindi Grammar and Computational Processing)

संगणकीय प्लेट्फॉर्म पर हिंदी में सामग्री की उपलब्धताविषय का संबंध संगणक (कंप्यूटर) और इंटरनेट पर हिंदी माध्यम से सामग्री उपलब्ध कराने और प्रयोग करने से है। यह हिंदी भाषा के संगणकीय परिप्रेक्ष्य का व्यावहारिक पक्ष है। इससे इतर दूसरा पक्ष संगणक (कंप्यूटर) में हिंदी के संसाधन (Processing) से जुड़ा है, जिसका उद्देश्य हिंदी को संगणक (कंप्यूटर) से साथ संवाद की भाषा के रूप में स्थापित करना है। हम जानते हैं कि संगणक (कंप्यूटर) की भाषा विद्युत के ऑन और ऑफ पर आधारित है, जिसे हम व्यवहार में बाइनरी भाषा के रूप में जानते हैं और ‘1’ तथा ‘0’ अंकों द्वारा अभिव्यक्त करते हैं। चूँकि इस भाषा को मनुष्य पूरी तरह समझ या याद नहीं रख सकता, इसलिए कुछ निर्देशों और नियमों की व्यवस्था के रूप में संवाद की भाषा के रूप में प्रोग्रामिंग भाषाओं का विकास किया गया। इनमें सामान्यतः अंग्रेजी भाषा के ही कीवर्ड्स (keywords) का प्रयोग होता है। प्रोग्रामिंग भाषाओं का प्रयोग करते हुए मानव भाषाओं- अंग्रेजी, हिंदी, जर्मन, चीनी, जापानी आदि की व्यवस्था को संगणक (कंप्यूटर) में स्थापित करने का प्रयास किया जा रहा है, जिसकी सफलता के बाद संगणक (कंप्यूटर) को सीधे-सीधे हम अपनी भाषा में ही निर्देश दे सकेंगे। भाषा प्रौद्योगिकी के क्षेत्र में इसे प्राकृतिक भाषा संसाधन (NLP) के नाम से जाना जाता है। हिंदी व्याकरण और संगणकीय संसाधन का पक्ष इसी से जुड़ा है। अतः आगे हम संक्षेप में हिंदी के संदर्भ में इस कार्य के प्रमुख चरणों और पक्षों को देखेंगे-

4.1 हिंदी में टंकण (टाइपिंग)

किसी भाषा को संगणक से जोड़ने का सबसे पहला उपक्रम उस भाषा में (अर्थात उसकी लिपि में) संगणक में टंकण (टाइपिंग) की सुविधा उपलब्ध होना है। हम जानते हैं कि संगणक का विकास अंग्रेजी प्रधान देशों में हुआ। इसलिए उसमें सर्वप्रथम रोमन लिपि के वर्णों के टंकण की ही सुविधा प्रदान की गई। कंप्यूटर के अविष्कार के बाद से विश्व की दूसरी लिपियों के लिए यह सुविधा प्रदान करने में लगभग 50 वर्ष लग गए। यह पूर्णतः तभी संभव हो पाया, जब यूनिकोड (Unicode) का विकास किया गया।

वैसे तो यूनिकोड से पूर्व भी हम देवनागरी में टंकण कर लेते थे, किंतु संगणक के लिए टंकण की हुई वह सामग्री रोमन में ही होती थी। इसे समझने के लिए हमें किसी वर्ण के टंकण की मशीनी प्रक्रिया को समझना होगा, जिसमें फॉन्ट की आधारभूत भूमिका होती है। इससे जुड़ी शब्दावली से संक्षिप्त परिचय इस कार्य में सहायक होगा-

·      कंप्यूटर में किसी भी प्रकार के चिह्न को प्रदर्शित करने के लिए प्रयुक्त वर्ण को संप्रतीक (Character) कहते हैं।

·      संप्रतीकों के समुच्चय के लिए प्रयुक्त प्रारूप (design) को फॉन्ट कहते हैं।

·      कीबोर्ड में टंकण करते हुए किसी बटन (वर्ण- जैसे- A, b, 1, * आदि) को दबाने पर स्क्रीन पर जो दिखाई देता है उसे अक्षराकृति (Typeface) कहते हैं।

·      कीबोर्ड में टंकण करते हुए किसी बटन (वर्ण- जैसे- A, b, 1, * आदि) को दबाने पर संगणक के प्रोसेसर से संसाधित होकर स्मृति (memory) में जो दर्ज होता है, उसे कोड (Code) कहते हैं।

इसे एक चित्र के माध्यम से इस प्रकार से समझ सकते हैं-

चित्र-01

उक्त चित्र से स्पष्ट है कि किसी भी फॉन्ट में किसी वर्ण के दो पक्ष होते हैं- टाइपफेस (Typeface) और कोड (code)। किसी भी लिपि के प्रत्येक संप्रतीक के लिए मशीन में एक सांख्यिकीय कोड दिया जाता है। कोडों की संख्या बिट/बाइट के आकार पर निर्भर करती है। संगणकवैज्ञानिकों द्वारा बिट/बाइट के आधार पर कुछ मानक विकसित किए गए, जैसे- ASCII-7 और ASCII-8 आदि। ASCII-8 तक में रोमन के अतिरिक्त दूसरी लिपियों के प्रतीकों के लिए कोड नहीं दिया जा सकता था। इसलिए रोमन के अतिरिक्त दूसरी लिपियों में टंकण संभव नहीं था। इस समस्या के समाधान के लिए जो वैकल्पिक व्यवस्था की गई थी, उसे क्लिप फॉन्ट कहते हैं। Krutidev, Shiva, Chanakya आदि फॉन्ट जिनमें यूनिकोड से पहले देवनागरी में टंकण किया जाता था, क्लिप फॉन्ट कहलाते हैं। इनमें वर्णों का केवल टाइपफेस (Typeface) बदल दिया जाता है, और कोड (code) रोमन वाला ही रहता है, जैसा कि उपर्युक्त चित्र में दिखाया गया है। इसलिए इन फॉन्टों में टंकित सामग्री दूसरे संगणक में वह फॉन्ट नहीं होने पर रोमन में ही दिखाई पड़ती थी।

यूनिकोड के आगमन से वह समस्या दूर हो गई है, क्योंकि यूनीकोड ऐसी कोडीकरण प्रणाली है, जिसके अंतर्गत प्रत्येक वर्ण के टाइपफेस (Typeface) का अप्रतिम (unique) मशीनी कोड होता है। इसे निम्नलिखित चित्र में देख सकते हैं-

चित्र-02

इस चित्र में हम देख सकते हैं कि रोमन वर्ण का अलग Typeface और कोड (code) है तथा देवनागरी वर्ण का अलग। अतः इससे वास्तव में विश्व की दूसरी भाषाओं की सामग्री को संगणक तक पहुँचाना संभव हो सका, जिनमें से हिंदी भी एक है। हिंदी का टंकण देवनागरी में करते हैं। देवनागरी के लिए मूल यूनीकोड फॉन्ट मंगल (Mangal) है। इसके अलावा अपराजिता (Aparajita), कोकिला (Kokila), उत्साह (Utsaah) और एरियल यूनीकोड एम.एस. (Arial Unicode MS) जैसे फॉन्ट भी हैं। यहाँ ध्यान रखने वाली बात है कि यूनिकोड एक कोडिंग प्रणाली है, कोई फॉन्ट नहीं है। इस प्रकार देवनागरी में टंकण की सुविधा उपलब्ध होने से ही हिंदी सामग्री का ऑनलाइन अपलोड और प्रयोग/डाउनलोड संभव हो सका है।

4.2 मूलभूत संसाधन प्रक्रियाएँ और हिंदी का संगणकीय व्याकरण

हिंदी के प्राकृतिक भाषा के रूप में संसाधन (NLP) के बाद ही संगणक से हिंदी में संवाद या अंतरक्रिया संभव हो सकेगी। इसे हिंदी का प्राकृतिक भाषा के रूप में संसाधन कह सकते हैं। किसी भी मानव भाषा की समझ संगणक या मशीन में स्थापित करने के दो अभिगम (Approaches) हैं- नियम-आधारित (Rule-based) और सांख्यिकीय (Statistical)। इनमें नियम-आधारित अभिगम व्याकरणिक नियमों (Grammatical Rules) पर आधारित होता है और सांख्यिकीय अभिगम मशीनी अधिगम नियमों (Machine Learning Rules) पर आधारित होता है। कोई भी संगणकीय प्रणाली (या सॉफ्टवेयर) संगणक की आधारभूत प्रक्रिया- इनपुट, संसाधन और आउटपुट पर ही कार्य करती है। इसमें संसाधन का कार्य कई छोटे-छोटे घटकों (Components) में संपन्न होता है। हिंदी की एक मशीनी प्रणाली को जिस प्रकार के व्याकरणिक नियमों की आवश्यकता पड़ती है, उनके संकलन को हिंदी का संगणकीय व्याकरण (Computational Grammar of Hindi) कहते हैं। चूँकि यह व्याकरण मनुष्य के बजाए मशीन (संगणक) को ध्यान में रखकर तैयार किया जाता है, इसलिए इस व्याकरण में मशीन (संगणक) की आधारभूत प्रक्रियाओं के नियम और अनुप्रयोग आधारित (Application-based) नियम होते हैं। शब्दकोश के लिए डाटाबेस प्रबंधन प्रणालियों (Database Management Systems) का प्रयोग किया जाता है। अतः अभिगम चाहे जो भी हो, हिंदी के प्राकृतिक भाषा संसाधन (NLP) के लिए मूलभूत रूप से आवश्यक प्रक्रियाओं का आगे परिचय दिया जा रहा है-

4.2.1 रूप-विश्लेषण (Morph Analysis): कोई भी मशीनी प्रणाली किसी भाषिक सामग्री का इनपुट लेने के बाद उसका खंडीकरण (segmentation) क्रमशः पैराग्राफों, वाक्यों और शब्दों में करती है। इसके बाद मशीन को पाठ (Text) के सभी शब्द अलग-अलग प्राप्त हो जाते हैं। अब प्रत्येक शब्द की पहचान (Identification) के लिए उसे शब्दकोश के डाटाबेस से मिलान करना होता है। यहाँ समस्या यह आती है कि पाठ में मूलशब्द और शब्दरूप दोनों आते हैं, जैसे-

·      लड़के बाजार से सब्जी लाते हैं।

इस वाक्य में बाजार से और सब्जी मूलशब्द हैं, तथा लड़के, लाते और हैं शब्दरूप हैं। शब्दकोश में केवल मूलशब्द रहते हैं। इसलिए शब्दरूपों का विश्लेषण करके उनके मूलरूप तक पहुँचना होता है। इस वाक्य में आए शब्दरूपों के मूलशब्द इस प्रकार हैं-

शब्दरूप                मूलशब्द

लड़के                    लड़का

लाते                      लाना

हैं                           है

शब्दरूपों से मूलशब्द को प्राप्त करने की प्रक्रिया रूपिमिक विश्लेषण (Morphological Analysis) कहलाती है और इस कार्य को संपन्न करने के लिए प्राकृतिक भाषा संसाधन प्रणाली में लगे घटक (या टूल) को रूप-विश्लेषक (Morph Analyzer) कहते हैं। संगणक द्वारा रूपिमिक विश्लेषण कराने के लिए विकासकर्ताओं द्वारा कई पद्धतियों का प्रयोग किया जाता है, जिनमें से एक प्रचलित विधि शब्द और पैराडाइम (Word and Paradigm) विधि है। इसमें तीन टेबलों के माध्यम से विश्लेषण संबंधी कार्य संपन्न किया जाता है-

Ø शब्दरूप टेबल (Word-form Table): इसमें किसी भाषा में आ सकने वाले सभी प्रकार के शब्दरूपों और उनके मूल शब्दों का संकलन होता है।

Ø पैराडाइम टेबल (Paradigm Table): इसमें प्रत्येक भिन्न प्रकार के शब्द से बनने वाले शब्दरूपों में लगे प्रत्ययों और उनके योग की प्रक्रिया दी जाती है।

Ø शब्दकोश टेबल (Table of Lexicon): इसमें संबंधित भाषा के सभी शब्द संकलित होते हैं, जिनके सामने उनकी पैराडाइम संख्या दी गई रहती है। साथ ही इसी टेबल में शब्दभेद टैगिंग के लिए शब्दों के टैग भी दिए रहते हैं।

इस प्रकार तीन टेबलों में शब्दों और नियमों को व्यवस्थित करके प्रोग्रामिंग में उनके प्रयोग एवं निर्माण/विश्लेषण संबंधी नियम दिए जाते हैं, जिससे मशीनी प्रणाली स्वतः रूपिमिक विश्लेषण करने में सक्षम हो जाती है।

4.2.2 शब्दभेद टैगिंग (Parts of Speech (POS) Tagging): यह किसी भी प्राकृतिक भाषा संसाधन प्रणाली की आधारभूत प्रक्रिया है। इसका कार्य किसी पाठ में आए सभी शब्दों के साथ उनके शब्दभेद संबंधी सूचना जोड़ना है। इस प्रक्रिया को संपन्न करने वाले टूल को शब्दभेद टैगर (POS Tagger) कहते हैं। टैगिंग के बाद ही कोई पाठ मशीनी अभिज्ञान (Machine Recognition) के योग्य हो पाता है। इसके लिए सर्वप्रथम एक टैगसेट (Tagset) के आवश्यकता होती है, जिसमें मशीनी संसाधन के लिए आवश्यक सभी शब्दभेद प्रकारों (POS Types) और उनके टैगों का संकलन होता है। उन टैगों को शब्दकोश टेबल में संबंधित भाषा के सभी शब्दों के साथ जोड़ दिया जाता है। वहाँ से यह घटक या टूल पाठ में आए हुए शब्दों का टैग्ड आउटपुट निर्मित करता है। इस प्रक्रिया को निम्नलिखित पाठांश की टैगिंग द्वारा समझ सकते हैं-

मूल इनपुट-

“हमारे स्कूलों और कॉलेजों में जिस तत्परता से फीस वसूल की जाती है, शायद मालगुजारी भी उतनी सख्ती से नहीं वसूल की जाती। महीने में एक दिन नियत कर दिया जाता है। उस दिन फीस का दाखिला होना अनिवार्य है। या तो फीस दीजिए, या नाम कटवाइए, या जब तक फीस न दाखिल हो, रोज कुछ जुर्माना दीजिए।”             (पाठ संदर्भ- कर्मभूमि, प्रेमचंद)

टैग्ड आउटपुट-

“हमारे<PR> स्कूलों<NN> और<CC> कॉलेजों<NN> में<PP> जिस<DEM> तत्परता<NN> से<PP> फीस<NN> वसूल<NN> की<VM> जाती<VEX> है,<VAX> शायद<RB> मालगुजारी<NN> भी<PT> उतनी<JJ> सख्ती<NN> से<PP> नहीं<NW> वसूल<NN> की<VM> जाती।<VEX> महीने<NN> में<PP> एक<JJ> दिन<NN> नियत<JJ> कर<VM> दिया<VEX> जाता<VAX> है।<VAX> उस<DEM> दिन<NN> फीस<NN> का<PP> दाखिला<NN> होना<VM> अनिवार्य<NN> है।<VAX> या<CC> तो<PT> फीस<NN> दीजिए,<VM> या<CC> नाम<NN> कटवाइए,<VM> या<CC> जब<CC> तक<PT> फीस<NN> <NW> दाखिल<JJ> हो,<VAX> रोज<RB> कुछ<JJ> जुर्माना<NN> दीजिए।”

इसमें प्रत्येक शब्द के बाद आया हुआ टैग किसी-न-किसी शब्दभेद अथवा उसके वर्ग/उपवर्ग की सूचना देता है। उदाहरण के लिए उपर्युक्त पाठ में आए टैग और उनके नाम इस प्रकार से देखे जा सकते हैं-

टैग                       नाम

PR-                     सर्वनाम    (Pronoun)

NN-                    जातिवाचक संज्ञा (Common Noun)

CC-                    संयोजक (Conjunction)

PP-                     परसर्ग (Postposition)

DEM-                निर्देशक (Demonstrative)

JJ-                       विशेषण (Adjective)

NW-                   नकारात्मक शब्द (Negation Word)

VM-                   मुख्य क्रिया (Main Verb)

VEX-                 रंजक क्रिया (Explicator Verb)

VAX-                सहायक क्रिया (Auxiliary Verb)

PT-                     निपात (Particle)

RB-                    क्रियाविशेषण (Adverb)

इस प्रकार के टैगों और उनसे जुड़ी सूचनाओं का समुच्च्य टैगसेट कहलाता है। किसी टैगसेट में कितने और कौन-कौन से टैग होंगे, यह भाषा के स्वरूप और विकासकर्ता के उद्देश्य पर निर्भर करता है। एक टैगसेट में 40 से 200 तक टैग होते हैं।

4.2.3 पद-विच्छेदन (Parsing): इसमें टैग किए पाठ के आधार पर वाक्य में आए पदबंधों का चिह्नन और वाक्य-संरचना का निरूपण किया जाता है। यह प्रक्रिया ही प्राकृतिक भाषा संसाधन की सर्वोच्च प्रक्रिया (Ultimate Process) है। इसे संपादित करने वाले घटक या टूल को पद-विच्छेदक (Parser) कहते हैं। जिस भाषा का पद-विच्छेदक जितना अधिक शक्तिशाली होता है, उस भाषा का प्राकृतिक भाषा के रूप में संगणक पर संसाधन उतना ही सटीक रूप में किया जा सकता है। विश्व की सभी प्रमुख भाषाओं के लिए पद-विच्छेदक इस क्षेत्र में कार्य कर रहे विभिन्न सरकारी और निजी संस्थाओं तथा व्यक्तियों द्वारा निर्मित किए गए हैं। हिंदी के लिए भी विभिन्न सी.डैक. और आई.आई.टी. संस्थानों द्वारा पद-विच्छेदक विकसित किए गए हैं, किंतु अभी इस दिशा में और अधिक काम किया जाना शेष है। एक हिंदी पद-विच्छेदक के लिए हिंदी के संगणकीय व्याकरण में पद-विच्छेदन संबंधी नियमों और वाक्य-साँचों का विस्तृत विवरण रहता है, जिसके आधार पर पद-विच्छेदक का विकास किया जाता है। पद-विच्छेदक का महत्व इसी बात से समझा जा सकता है कि एक शक्तिशाली पद-विच्छेदक द्वारा ही हिंदी का व्याकरण जाँचक (Grammar Checker), मशीनी अनुवाद प्रणाली (Machine Translation System), प्रश्न-उत्तर प्रणाली (Question-Answering System) और कृत्रिम बुद्धि प्रणाली (AI System) आदि का निर्माण संभव है।

इस प्रकार किसी मशीनी प्रणाली के लिए किसी पाठ संसाधन की प्रक्रिया और उसके लिए हिंदी के संगणकीय व्याकरण की भूमिका को इस चित्र के माध्यम से इस प्रकार से समझ सकते हैं-

मशीनी संसाधन की प्रक्रिया

हिंदी के संगणकीय व्याकरण की भूमिका

हिंदी पाठ का इनपुट

खंडीकरण

रूपविश्लेषण

---

----

रूपविश्लेषण नियम, शब्दकोश संरचना

टैगिंग

टैगिंग संबंधी नियम, टैगसेट

पद-विच्छेदन

पद-विच्छेदन संबंधी नियम, वाक्य साँचे

 

 

 

 

 

 

 

 

 

 


चित्र-03

4.3 अनुप्रयोग आधारित संसाधन प्रक्रियाएँ और हिंदी का संगणकीय व्याकरण

उपर्युक्त विवरण में हिंदी की किसी भी भाषायी प्रणाली के लिए आवश्यक प्रक्रियाओं और उनमें हिंदी के संगणकीय व्याकरण की भूमिका पर चर्चा की गई। यह हिंदी के मशीनी संसाधन का एक पक्ष है। इसके अलावा एक दूसरा पक्ष अनुप्रयोग आधारित संसाधन का है, जिसका संबंध भाषा संबंधी किसी उद्देश्य विशेष की पूर्ति अथवा किसी कार्य विशेष को संपन्न करने से है। इसके अंतर्गत ऐसी छोटी-छोटी प्रणालियाँ निर्मित की जाती हैं, जिनमें उक्त प्रक्रियाओं संबंधी घटकों के अलावा स्वतंत्र रूप से कुछ नियम दिए जाते हैं, जो केवल उन्हीं कार्यों को संपन्न करने के लिए होते हैं, जैसे- लिप्यंतरण प्रणाली, वर्तनी जाँचक, व्याकरण जाँचक आदि। इस प्रकार की कुछ प्रमुख प्रक्रियाओं और उनके निर्माण के लिए हिंदी के संगणकीय व्याकरण में संकलित किए जाने वाले नियमों के रूप को इस प्रकार से देख सकते हैं-

4.3.1 लिप्यंतरण: लिप्यंतरण (Transliteration) वह प्रक्रिया है जिसके द्वारा एक लिपि के पाठ को दूसरी लिपि में बदल दिया जाता है। उदाहरण के लिए सीता गाँव जाती हैवाक्य देवनागरी लिपि में है, इसे रोमन में इस प्रकार लिखा जा सकता है- ‘Seetaa gaanv jaatee hai’. देवनागरी लिपि के वाक्य को रोमन लिपि में परिवर्तित करने की यह प्रक्रिया लिप्यंतरण है, जिसे देवनागरी-रोमन लिप्यंतरणकहा जाएगा। इसी प्रकार ‘he is my big brother.’ को ही इज माइ बिग ब्रदर. के रूप में प्रस्तुत करना रोमन-देवनागरी लिप्यंतरणहै। जब यह कार्य मशीन द्वारा किया जाता है तो इसे स्वचलित लिप्यंतरण (Automatic Transliteration) कहते हैं और इस कार्य को संपन्न करने वाली प्रणाली को लिप्यंतरण प्रणाली (Transliteration System) कहते हैं।

एक लिपि की सामग्री को दूसरी लिपि में परिवर्तित करने के लिए दोनों लिपियों के लिपि-चिह्नो (वर्णों) को डाटाबेस में संकलित करते हैं तथा उनके परस्पर परिवर्तन संबंधी नियम हिंदी के संगणकीय व्याकरण में दिए जाते हैं। हिंदी की मूलभूत लिपि देवनागरी है। इसके अलावा हिंदी के वैश्विक विस्तार की दृष्टि से दो लिपियाँ महत्वपूर्ण हैं- रोमन और फ़ारसी। ऑनलाइन प्लेटफॉर्म, मुख्यतः सोशल मीडिया पर लोग सामान्यतः रोमन में ही टंकण करके एक-दूसरे को संदेश भेज देते हैं। अतः यदि उस डिवाइस में रोमन-देवनागरी लिप्यंतरण प्रणाली का प्रयोग हो तो रोमन में लिखी हुई सामग्री को स्वचलित रूप से देवनागरी में परिवर्तित किया जा सकता है। इसके लिए दोनों लिपियों का तुलनात्मक अध्ययन करते उनसे संबंधित नियमों का संकलन किए जाने की आवश्यकता पड़ती है। डाटाबेस में हम दोनों लिपियों के वर्णों को जिस रूप में संग्रहीत करते हैं, लिप्यंतरण भी उसी प्रकार का होता है। उदाहरण के लिए देवनागरी-रोमन वर्ण युग्मों (Devanagari-Roman Letter Pairs) का एक प्रतिदर्श (Sample) इस प्रकार से देख सकते हैं-

Dev

Rom

Dev

Rom

a

k

aa

kh

A

Kh

i

g

ee

G

I

gh

e

Ng

टेबल-01

इसी प्रकार देवनागरी-रोमन सभी वर्णों को आमने-सामने प्रस्तुत करते हुए हिंदी के संगणकीय व्याकरण में इनके परिवर्तन संबंधी नियम दिए जाते हैं। यदि देवनागरी-फ़ारसी लिप्यंतरण प्रणाली का निर्माण करना हो तो रोमन की जगह फ़ारसी लिपि के लिपिचिह्नों और उनसे संबंधित नियम दिए जाएँगे।

4.3.2 वर्तनी जाँच : लेखन या टंकण के दौरान कभी भूलवश, कभी शीघ्रता में तो कभी असावधानी के कारण कुछ त्रुटियाँ हो जाती हैं। इस कारण हम कोई भी सामग्री तैयार हो जाने के बाद प्रकाशनार्थ भेजने से पहले एक बार प्रूफ पठन (Proof Reading) करते हैं। पाठ में की जाने वाली त्रुटियों में एक प्रकार वर्तनी संबंधी त्रुटियों का है। टंकित सामग्री में वर्तनी संबंधी होने वाली त्रुटियों की संगणक या मशीन द्वारा स्वचलित जाँच की जा सकती है। इसके लिए प्रयुक्त प्रणाली को वर्तनी जाँचक (Spell Checker) कहते हैं। हिंदी के संबंध में वर्तनी जाँचक के निर्माण हेतु आवश्यक डाटाबेस और नियमों संबंधी विवरण हिंदी के संगणकीय व्याकरण में संकलित किया जाता है। हिंदी टंकण में होने वाली वर्तनी संबंधी त्रुटियों को निम्नलिखित प्रकार से वर्गीकृत कर सकते हैं-

()  क्रम परिवर्तन

लेखन या टंकण के क्रम में जल्दीबाजी में शब्द के अंदर वर्णों का क्रम परिवर्तित होने से गलत शब्द टंकित होने की संभावना बनी रहती हैजैसे-

कमरा =  करमा

कटहल = कहटल

()  वर्ण-परिवर्तन

किसी एक वर्ण की जगह दूसरा वर्ण टंकित हो जाना, वर्ण-परिवर्तन है। इसके दो उपवर्ग किए जा सकते हैंजैसे-

(अ) स्वर परिवर्तन- हिंदी टंकण में ह्रस्व और दीर्घ स्वरों के परस्पर परिवर्तित होने की संभावना रहती है, जैसे-

क्रियाकर्म = क्रीयाकर्म

कुलभूषण = कुलभुषण

(आ) व्यंजन परिवर्तन- कई बार असावधानी के कारण एक व्यंजन की जगह दूसरा व्यंजन टंकित हो जाता है, जैसे-

हवादार = हबादार

ठंडक = टंडक

()  वर्णागम- टंकण के दौरान किसी अनावश्यक वर्ण के टंकित हो जाने की स्थिति वर्णागम है इसके भी दो उपवर्ग किए जा सकते हैं, जैसे-

(अ) स्वर-आगम- शब्द में अतिरिक्त स्वर का आ जाना, स्वर-आगम है, जैसे-

कार्यालयादेश = कार्यालयादेशा

उपरोक्त = उपारोक्त

(आ) व्यंजन-आगम- शब्द में अतिरिक्त व्यंजन का आ जाना, व्यंजन-आगम है, जैसे-

कार्यालयादेश = कार्यालयादेशक

कार्यक्रमानुसार = कार्यक्रयमानुसार

 ()  वर्णलोप- टंकण में किसी वर्ण के छूट जाने की स्थिति वर्णलोप है। इसके भी दो प्रकार संभव हैं-

(अ) स्वर लोप- शब्द में किसी स्वर का छूट जाना, स्वर-लोप है, जैसे-

आदेशानुसार = आदेशनुसार

सामाजिक = समाजिक

(आ) व्यंजन लोप- शब्द में किसी व्यंजन का छूट जाना, व्यंजन-लोप है, जैसे-

सामाजीकरण = सामाजीकण

भारतीय = भातीय

वर्तनी जाँचक निर्माण संबंधी नियमों के लिए इस प्रकार हो सकने वाली त्रुटियों के पैटर्न (pattern) का विश्लेषण किया जाता है और हिंदी के संगणकीय व्याकरण में हिंदी टंकण में होने/हो सकने वाली वर्तनीगत त्रुटियों का विवरण और वर्तनी जाँचक निर्माण संबंधी नियमों का संकलन होता है।

4.3.3 व्याकरण जाँच : वर्तनी संबंधी त्रुटियों की जाँच की तरह ही हिंदी में व्याकरण संबंधी त्रुटियों की जाँच भी प्रूफ पठन का एक महत्वपूर्ण अंग है। इसके लिए हिंदी का व्याकरण जाँचक (Grammar Checker of Hindi) विकसित किया जाता है, जिसके माध्यम से टंकित पाठ में हुई व्याकरण संबंधी त्रुटियों का स्वचलित परीक्षण किया जा सके। इसके लिए दो स्तरों पर नियमों का प्रतिपादन किया जाता है- पदबंध स्तर और वाक्य स्तर। इन्हें संक्षेप में इस प्रकार से देख सकते हैं-

(क) पदबंध स्तर : एक या एक से अधिक शब्दों/पदों का वह समूह पदबंध (Phrase) है जिसके सभी घटक शब्द आपस में जुड़कर वाक्य स्तर पर एक ही प्रकार्यात्मक इकाई का निर्माण करते हैं। पदबंध स्तर पर मूलतः दो प्रकार के परीक्षण व्याकरण जाँचक में किए जाते हैं-

       पदबंध में प्रयुक्त शब्द उचित स्थान पर आया है या नहीं, जैसे – ‘बहुत सुंदर लड़कीकी जगह सुंदर बहुत लड़कीका प्रयोग गलत है।

       पदबंध में किसी शब्द की दूसरे शब्द से अन्विति होने पर शब्दरूप ठीक है या नहीं, जैसे – ‘अच्छा लड़काकी जगह अच्छी लड़काया अच्छे लड़काका प्रयोग गलत है।

(ख) वाक्य स्तर (Sentence Level) : वाक्य के स्तर पर लेखक या टंकणकर्ता द्वारा मुख्यतः अन्विति (Agreement) संबंधी त्रुटियाँ ही की जाती हैं। ये त्रुटियाँ शीर्ष कर्ता या कर्म की व्याकरणिक कोटियों- लिंग, वचन, पुरुष आदि और क्रिया के रूप (काल, पक्ष, वृति आदि) पर आधारित होती हैं, जैसे- वह बच्चा जाता हैकी जगह वह बच्चा जाती हैया वह बच्चा जाते हैंवाक्यों का प्रयोग व्याकरण की दृष्टि से गलत है।

हिंदी के संगणकीय व्याकरण में हिंदी लेखन या टंकण में होने/हो सकने वाली व्याकरणिक त्रुटियों का विवरण और व्याकरण जाँचक निर्माण संबंधी नियमों का संकलन होता है।

5. हिंदी का संगणकीय व्याकरण और भारत की भाषा चिंतन परंपरा (The Computational Grammar of Hindi and Indian Tradition of Language Thinking)

डिजिटल युग के वर्तमान परिदृश्य में हिंदी को संगणक के साथ संवाद या अंतरापृष्ठन (Interfacing) की भाषा के रूप में विकसित करने के लिए हिंदी के संगणकीय व्याकरण की आवश्यकता केंद्रीय है। इसके स्वरूप के निर्धारण हेतु हमारे सामने दो मॉडल उपलब्ध हैं- पश्चिमी और भारतीय। पश्चिमी मॉडल पर तो विश्व भर में काम हो ही रहा है। हमें भारतीय चिंतन परंपरा की दृष्टि से विचार करना चाहिए। भारत में भाषा और ज्ञान-विज्ञान के विविध पक्षों पर जो सूक्ष्म चिंतन हुआ है, वह हमारे लिए अत्यंत उपयोगी सिद्ध हो सकता है, केवल हमें उसके मर्म तक उतरकर आत्मसात करने की आवश्यकता है। भाषा की दृष्टि से ही बात करें तो वैदिक चिंतन परंपरा में उच्चारण’, व्युत्पत्ति एवं अर्थ निर्धारण और व्याकरण के क्षेत्र में अप्रतिम कार्य हुए हैं। विविध शिक्षा ग्रंथ जहाँ उच्चारण संबंधी शुद्धता के वस्तुनिष्ठ मानक तय करते हैं, तो महर्षि यास्क का निरुक्त वैदिक शब्दों के माध्यम से शब्दार्थ निर्वचन का गहन बोध कराता है। आचार्य पाणिनि का अष्टाध्यायी अथवा पाणिनीय पंचांग व्याकरण तो व्याकरण लेखन की कसौटी है। पाणिनि के पश्चात कात्यायन और पतंजलि समेत व्याकरण लेखन की एक समृद्ध परंपरा रही है, किंतु अष्टाध्यायी की ही बात करें तो उसके समतुल्य या निकटवर्ती व्याकरण आज तक विश्व की किसी भाषा के लिए नहीं लिखा जा सका है।

आचार्य पाणिनि की अष्टाध्यायी, धातुपाठ, गणपाठ, लिंगानुशासन और उणादिसूत्रको मिलाकर पाणिनीय पंचांग व्याकरण नाम दिया जाता है। इनके माध्यम से आचार्य पाणिनि का व्याकरण इतना वस्तुनिष्ठ और वैज्ञानिक रूप में लिखा गया है कि आज के संगणकीय परिदृश्य के लिए भी वह पूर्णतः उपयोगी और प्रायोगिक (Useful and Practical) दिखाई पड़ता है। एक संगणक के लिए दो चीजों की आवश्यकता दिखाई पड़ती है- वस्तुनिष्ठ नियम (Objective Rules) और  संरचित डाटाबेस (Structured Database)। संगणक के लिए प्रतिपादित वस्तुनिष्ठ नियम संक्षिप्त होने चाहिए और उनका प्रयोग विस्तार स्पष्ट होना चाहिए। अष्टाध्यायी में प्रतिपादित नियम इस प्रकार के सभी पैमानों पर खरे उतरते हैं। इसी प्रकार संरचित डाटाबेस में शब्दों को नियम प्रयोग की दृष्टि से वर्गीकृत और समूहित होना चाहिए। आचार्य पाणिनि के धातुपाठ, गणपाठ और लिंगानुशासन में धातुओं और अन्य प्रकार के शब्दों (पदों) को विभिन्न गणों (समूहों) में वर्गीकृत करके प्रस्तुत किया गया है, जिससे अष्टाध्यायी के नियमों का प्रयोग विस्तार स्पष्ट हो जाए। अतः यदि हम हिंदी के लिए भी ऐसा व्याकरण लिखें तो संगणकीय संसाधन की दृष्टि से उसका अनुप्रयोग न हो पाने का कोई कारण नहीं दिखाई पड़ता। यद्यपि हिंदी भाषा के प्रयोग क्षेत्र का विस्तार और प्रयोग में विविधता नियमों के प्रतिपादन में कुछ बाधक बन सकती है, क्योंकि हिंदी का विस्तार उन क्षेत्रों में भी है जहाँ स्वतंत्र रूप से जनपदीय भाषाओं/उपभाषाओं (अवधी, भोजपुरी, राजस्थानी आदि‌) का व्यवहार होता है और हिंदी तथा इन भाषाओं में अंतरक्रिया होती रहती है। फिर भी यदि हम गहन स्तर पर उतरकर कार्य का आरंभ करें तो इस प्रकार की समस्याओं के समाधान भी किसी-न-किसी रूप में हमारे सामने स्वतः निकलकर सामने आएँगे।

 

6. उपसंहार (Conclusion)

संक्षेप में, स्पष्ट है कि 21वीं शताब्दी मानव सभ्यता को डिजिटल युग की बुलंदी पर दिन-प्रति-दिन लेकर जा रही है। अतः किसी भी व्यक्ति, समाज अथवा भाषा को इसमें अपने-आप को प्रासंगिक बनाए रखने के लिए आवश्यक है कि उसमें उपलब्ध सामग्री और ज्ञान को अधिक-से-अधिक संगणकीय प्लेट्फॉर्म पर उपलब्ध कराया जाए। यूनिकोड के आगमन से देवनागरी में स्वतंत्र रूप से टंकण संभव हो सका है। इससे प्रत्येक देवनागरी वर्ण को एक स्वतंत्र कोड प्राप्त हुआ है और देवनागरी की सामग्री मशीन पठनीय (Machine Readable) बन सकी है। इस कारण इंटरनेट पर हिंदी में सामग्री और अपलोड और प्रयोग किया जाना भी संभव हो सका है। इसलिए आज ऑनलाइन प्लेटफॉर्म पर भी हिंदी भारत की सर्वाधिक प्रयोग और व्यवहार की भाषा के रूप में सामने आ सकी है।

हिंदी भाषा के वर्तमान स्वरूप का संगणकीय परिप्रेक्ष्य तब पूरा होगा, जब उसे संगणक के साथ संवाद या अंतरक्रिया की भाषा के रूप में भी विकसित किया जाए। संगणक किसी भाषा को तभी समझ पाएगा, जब उस भाषा के भाषिक नियमों को नियम-आधारित या सांख्यिकीय विधियों से संसाधित किया जाए। यह बात हिंदी पर भी लागू होती है। अतः हिंदी के प्राकृतिक भाषा के रूप में संसाधन के लिए नियम-आधारित अभिगम का प्रयोग करने पर एक हिंदी के संगणकीय व्याकरण (Computational Grammar of Hindi) की आवश्यकता पड़ती है, जिसमें रूपिमिक विश्लेषण, टैगिंग, पदबंध चिह्नन और पद-विच्छेदन के नियम तार्किक रचनाओं (logical forms) के रूप में संग्रहीत किए गए हों। इससे हिंदी व्याकरण के संगणक पर संसाधित कर सकने योग्य नियम तैयार होते हैं और बड़े अनुप्रयोग क्षेत्रों, जैसे- मशीनी अनुवाद, प्रश्न-उत्तर प्रणाली, कृत्रिम बुद्धि प्रणाली आदि का आधार विकसित होता है। इसके अलावा कुछ स्वतंत्र अनुप्रयोग (Independent applications) भी हैं, जिनके लिए आवश्यक नियम और शब्दकोश संरचना आदि का विवरण हिंदी के संगणकीय व्याकरण में दिए जाते हैं। इस प्रकार के अनुप्रयोगों में लिप्यंतरण, वर्तनी जाँच और व्याकरण जाँच आदि प्रमुख हैं, जिनकी संक्षिप्त चर्चा ऊपर की गई।

हिंदी के संगणकीय परिदृश्य को भारत में भाषा चिंतन की समृद्ध परंपरा के परिप्रेक्ष्य में भी देखना आवश्यक है। संस्कृत आचार्यों ने भाषा के विविध पक्षों पर जो गूढ़ और सूक्ष्म चिंतन किया है, उसे वर्तमान संदर्भों में पुनःउद्घाटित करने की आवश्यकता है। पाणिनीय पंचांग व्याकरण के अंतर्गत अष्टाध्यायी में भाषायी नियमों की वस्तुनिष्ठ सूत्रों के रूप में प्रस्तुति और धातुपाठ, गणपाठ एवं लिंगानुशासन में शब्दों (पदों) की संरचित प्रस्तुति संगणक में प्रोग्रामिंग और डाटाबेस प्रबंधन दोनों ही दृष्टियों से अनुप्रयोग हेतु विचारणीय हैं।

7. संदर्भ-सूची

1) गुरु, कामता प्रसाद. (2010). हिंदी व्याकरण. इलाहाबाद : लोकभारती प्रकाशन।

2) गोस्वामी, कृष्ण कुमार. (2007). आधुनिक हिंदी : विविध आयाम. दिल्ली : आलेख प्रकाशन।

3) चौधरी, तेजपाल. (2003). हिंदी व्याकरण विमर्श. नई दिल्ली : वाणी प्रकाशन।

4) टंडन, पूरनचंद & अग्रवाल, मुकेश. (2007). हिंदी भाषा: कल आज कल. किताबघर : नई दिल्ली।

5) प्रसाद, धनजी. (2011). भाषाविज्ञान का सैद्धांतिक अनुप्रयुक्त एवं तकनीकी पक्ष. नई दिल्ली : प्रिय साहित्य सदन।

6) ---    ---  (2019). हिंदी का संगणकीय व्याकरण. नई दिल्ली : राजकमल प्रकाशन।

7) ----   ---  (2020). वेदांग और भाषा-चिंतन’ (पृ. 151-154). उन्मेष (Unmesh- An International Half Yearly Peer-Reviewed Refereed Research Journal) ISSN: 2394-2207 VOL. 06, No.I, Part-I. में प्रकाशित।

8) बालचंद्रन, लक्ष्मीबाई. (1988). हिंदी का कारक व्याकरण. आगरा : केंद्रिय हिंदी संस्थान।

9) भाटिया, कैलाशचंद्र. (2008) हिंदी भाषा का आधुनिकीकरण. तक्षशिला प्रकाशन: नई दिल्ली।

10) मलहोत्रा, विजय कुमार. (2002).  कम्प्यूटर के भाषिक अनुप्रयोग. नई दिल्ली : वाणी प्रकाशन।

 

 

 

 

No comments:

Post a Comment