Total Pageviews

Monday, October 22, 2018

भाषा और संरचना : MA1 भाषा और भाषाविज्ञान-4


4. भाषा और संरचना
4.1 संरचना की द्वयात्मकता (Duality of Structure)
जब किसी वस्तु या व्यवस्था में एक से अधिक इकाइयाँ कुछ नियमों के अंतर्गत एक-दूसरे से संबंधित होती हैं, तो उन इकाइयों उनके बीच प्राप्त संबंध को संरचना कहते हैं। यदि एक ही इकाई हो तो संरचना नहीं होगी। एक से अधिक होने पर उनका एक निश्चित क्रम, स्थान या जुड़ाव होगा, जिसका ज्ञान संरचना का ज्ञान कहलाता है।
भाषा में संरचना दो स्तरों पर कार्य करती है-
(क) अभिव्यक्ति संरचना (Expression Structure)
किसी भाषा में अर्थवान इकाइयों का व्यवहार किन ध्वनियों /किस प्रकार की ध्वनियों अथवा किन लिपि चिह्नों/किस प्रकार के लिपि चिह्नों से होता है? का अध्ययन उस भाषा की अभिव्यक्ति संरचना का अध्ययन है। भाषिक अभिव्यक्ति दो प्रकार से होती है-
वाचिक और लिखित
अतः इन दोनों रूपों में भाषा की अभिव्यक्ति संरचना का अध्ययन किया जा सकता है। किसी भाषा की अभिव्यक्ति संरचना स्वनिम से लेकर वाक्य तक देखी जा सकती है।
स्वनिमों से स्वनप्रक्रियात्मक शब्द बनते हैं, जैसे- घर’, इसमें लगे स्वनिमों और उनके क्रम का अध्ययन अभिव्यक्ति संरचना का अध्ययन है। अभिव्यक्ति संरचना के अध्ययन में अर्थ और व्याकरण का अध्ययन अपेक्षित नहीं होता। शब्दों को मिलाकर उच्चार’ (utterance) बनते हैं। पूरे महाभारत की अभिव्यक्ति संरचना का अध्ययन व्याकरण और अर्थ जाने बिना किया जा सकता है। जैसे महाभारत में कितने स्वर हैं, कितने व्यंजन है, उनका व्यंजन पैटर्न, स्वर पैटर्न, स्वर-व्यंजन पैटर्न किस प्रकार के हैं? किस पैटर्न के कितने शब्द आए हैं? इस प्रकार का अध्ययन अभिव्यक्ति संरचना का अध्ययन होगा।

................................................
 (ख) कथ्य संरचना (Content Structure)
भाषा अर्थहीन इकाइयों (ध्वनियों/स्वनिमों) के माध्यम से अर्थवान इकाइयों (शब्दों/वाक्यों) का निर्माण करती है। अर्थवान इकाइयों की व्यवस्था का अध्ययन कथ्य-संरचना के अंतर्गत किया जाता है। दो छोटी अर्थवान इकाइयों को मिलाकर एक बड़ी अर्थवान इकाई कैसे और किन परिस्थितियों में बनाई जाती है? इसका विश्लेषण कथ्य संरचना में किया जाता है। उदाहरण के लिए देवदूत शब्द में देव+दूत दो अर्थवान इकाइयाँ हैं। यह विश्लेषण कथ्य संरचना की दृष्टि से किया गया विश्लेषण है, जबकि द+ए+व+द+ऊ+त ध्वनियाँ एक विशेष क्रम में आई हैं। यह विश्लेषण अभिव्यक्ति संरचना का मामला है।
कथ्य संरचना की सबसे छोटी इकाई रूपिमहै। रूपिमों का योग होने पर शब्दों या पदों का निर्माण होता है, जिनकी कथ्य संरचना बनती है। यह श्रृंखला रूपिम से वाक्य तक जाती है। संरचना की दृष्टि से वाक्य सबसे बड़ी इकाई है। वाक्य के ऊपर पाठ या प्रोक्ति संप्रेषण का मामला है। अभी तक उनकी संरचना की बात नहीं की जाती।

................................................
4.2 संबंधों की द्वयात्मकता (Duality of Relations)
1. विन्यासक्रमी (Syntagmatic) संबंध
एफ. डी. सस्यूर को आधुनिक भाषाविज्ञान का जनक कहा जाता है। इन्होंने पारंपरिक भाषा अध्ययन से हटकर वर्तमान भाषावैज्ञानिक अध्ययन का मार्ग दिखाया। इसके लिए सस्यूर द्वारा कई नवीन अवधारणाएँ दी गईं। यह उनमें से एक है। विन्यासक्रमी –सहचारक्रमी संबंध वाक्य में आने वाले शब्दों के आपसी संबंध हैं। वाक्य में जब एक से अधिक शब्द आते हैं तो वे आपस में विन्यासक्रमी संबंध में होते हैं, जैसे –
2. सहचारक्रमी (Paradigmatic) संबंध

किसी वाक्य में एक स्थान पर जितने शब्द आ सकते हैं वे आपस में सहचारक्रमी संबंध में होते हैं, जैसे -


भाषा प्रौद्योगिकी : परिप्रेक्ष्य और अभिगम-4


......................................................................................................................................................
इकाई - 4 भाषा प्रौद्योगिकी : विविध अभिगम
......................................................................................................................................................
4.1 नियम-आधारित अभिगम
शब्दकोश + व्याकरणिक नियम (सूत्र रूप में)

मशीनी अनुवाद के संदर्भ में देखें –
नियम आधारित प्रणाली (Rule based Systems) :- इस प्रकार की प्रणालियों के विकास में व्याकरणिक नियमों को प्रमुखता दी जाती है। अर्थात् इन प्रणालियों में स्रोत भाषा और लक्ष्य भाषा के व्याकरणों को संग्रहीत कर दिया जाता है। इनके साथ-साथ डाटाबेस के रूप में दोनों भाषाओं के शब्दकोश (lexicon) को रखा जाता है। इसके बाद आवश्यकतानुसार रूपवैज्ञानिक विश्लेषक आदि का प्रयोग किया जाता है। इस प्रकार की मशीनी अनुवाद प्रणालियों के विकास में मुख्यत: तीन विधियों का प्रयोग किया जाता है :
(क) प्रत्यक्ष विधि (Direct Method) :- इस विधि को शब्दकोश आधारित विधि भी कहा गया है। इस विधि के प्रयोगकर्ताओं का यह मानना था कि स्रोत भाषा के शब्दों का लक्ष्य भाषा के शब्दों द्वारा प्रतिस्थापन ही अनुवाद है। इसलिए इन प्रणालियों में दोनों भाषाओं के शब्दकोशों को शब्द-रचना तथा वाक्य-रचना के कुछ नियमों के साथ रख दिया जाता है। समान संरचना वाली या एक भाषा परिवार की भाषाओं के बीच अनुवाद इन प्रणालियों के माध्यम से कुछ हद तक किया जा सक्ता है किंतु असमान संरचना  या अलग-अल्ग भाषा परिवारों की भाषाओं के बीच अनुवाद के लिए इस विधि से विकसित प्रणालियाँ उपयुक्त नहीं हैं।
(ख) अंतरण विधि (Transfer Method) :- इस विधि को कृष्ण कुमार गोस्वामी (157) ने परोक्ष विधि (indirect method)’ कहा है। इस विधि में व्याकरणिक नियमों को अधिक महत्व दिया जाता है। इसमें स्रोत पाठ के प्रत्येक वाक्य का सर्वप्रथम व्याकरणिक विश्लेषण किया जाता है। इसके पश्चात् प्राप्त वाक्य संरचना को लक्ष्य भाषा की वाक्य संरचना में अंतरित कर दिया जाता है। इसके उपरांत शब्दों का प्रतिस्थापन अंतरण से प्राप्त नई वाक्य रचना में कर दिया जाता है। इस प्रकार से इस विधि के तीन चरण प्राप्त होते हैं : विश्लेषण, अंतरण एवं संश्लेषण। इस विधि द्वारा जर्मनी की ‘SUSY’ और फ्रांस की ‘GETA’ प्रणालियों का विकास किया गया है।
(ग) अंतरभाषा विधि (Interlingua Method) :- इस विधि में अनुवाद के लिए चुनी गई दोनों भाषाओं के बीच अर्थ की दृष्टि से एक मध्यवर्ती भाषा (intermediate language) का निर्माण किया जाता है जिसे अंतरभाषा (interlingua) कहते हैं। यह भाषा स्रोत और लक्ष्य दोनों भाषाओं से निरपेक्ष होती है। इस विधि प्रयोग करते हुए अनुवाद प्रणालियों का विकास बहुत ही जटिल कार्य है।
(घ) प्रतिचित्रण या क्रमिक व्याकरण विधि (Mapping or Sequential Grammar Method) :- कुछ विद्वानों ने इस विधि पर भी काम करने का प्रयास किया है। इसमें बड़ी-बड़ी वाक्य संरचनाओं को बनाकर संग्रहीत कर दिया जाता है। यदि स्रोत पाठ के वाक्य की संरचना तैयार किए हुए डाटाबेस से पूर्णत: या आंशिक रूप से मेल खाती है तो उसी के अनुसार क्रमश: पूर्ण प्रतिचित्रण (complete mapping) या प्रभाग प्रतिचित्रण (subset mapping) का कार्य किया जाता है।




......................................................................................................................................................
4.2 सांख्यिकीय अभिगम


कार्पस



सांख्यिकीय नियम/
मशीनी अधिगम नियम
कार्पस + सांख्यिकीय नियम/मशीनी अधिगम नियम




मशीनी अनुवाद के संदर्भ में-
सांख्यिकी आधारित प्रणाली (Statics based System) :- इस प्रकार की प्रणालियों में द्विभाषिक कार्पोरा पर आधारित सांख्यिकीय विधियों का प्रयोग किया जाता है। इसमें भाषाई नियमों और शब्दकोशों की आवश्यकता नहीं होती। इनकी जगह सांख्यिकीय संरचनाओं को निर्मित कर विरचन (decomposition) और अंतरापृष्ठ (interface) का प्रयोग किया जाता है। इसमें एच. एम. एम. जैसे मॉडलों और पद्धतियों का प्रयोग किया जाता है।
कार्पस आधारित प्राकृतिक भाषा संसाधन (Corpus-based NLP) के क्षेत्र में मशीनी अधिगम (ML) के लिए अधिकांंशतः गहन अधिगम (Deep Learning) के Recurrent Neural Network (RNN) मॉडल का प्रयोग किया जाता है।
......................................................................................................................................................
4.3 उदाहरण-आधारित अभिगम
मशीनी अनुवाद के संदर्भ में : उदाहरण आधारित प्रणाली (Example –based Systems) :- इस विधि को 1984 में Makoto Nagao द्वारा प्रस्तावित किया गया। इसमें द्विभाषिक कार्पोरा का उपयोग रन टाइम में मुख्य ज्ञान आधार के रूप में किया जाता है। अत: मशीन में सर्वप्रथम समानांतर कार्पोरा तैयार किया जाता है और उसी के आधार पर नियम दिए जाते हैं। इसके लिए कृत्रिम बुद्धि (artificial intelligence) और मशीनी अधिगम (machine learning) विधियों का उपयोग किया जाता है। इनके विकास में प्रयुक्त होने वाले कार्पस अभी बहुत कम ही निर्मित किए गए हैं; जैसे : कानाडियन हैन्सार्ड कार्पस (Canadian Hansard Corpus).
......................................................................................................................................................
4.4 संकर अभिगम (Hybrid Approach)


यह मशीनी अनुवाद प्रणालियों के विकास की आधुनिक तकनीकी है। इसमें सांख्यिकीय और नियम-आधारित अनुवाद कम्पनियों (जैसे : Asia Online और Systran) आदि का कहना है कि उनके द्वारा संकर विधि का प्रयोग किया जा रहा है।  संकर विधि से विकसित प्रणालियाँ दो प्रकार से कार्य करती हैं :

(क) सांख्यिकी द्वारा पश्चसंसाधित नियम (Rule post-processed by Statics) :- इस प्रकार की प्रणालियों में अनुवाद का कार्य नियम आधारित इंजन द्वारा किया जाता है। सांख्यिकी का प्रयोग इस इंजन से प्राप्त आउटपुट को सुधारने या ठीक करने के लिए किया जाता है।
(ख) नियमों द्वारा निर्देशित सांख्यिकी (Statics Guided by Rules) :- इसमें नियमों का प्रयोग डाटा को पूर्वसंसाधित करने के लिए किया जाता है जिससे सांख्यिकी इंजन को अनुवाद कार्य करने में सरलता हो जाती है। इसके पश्चात् नियमों का पुन: प्रयोग सांख्यिकी के नियमों के आउटपुट के सामान्यीकरण (normalization) में किया जाता है। इस विधि का प्रयोग करते हुए विकसित की गई मशीनी अनुवाद प्रणालियाँ अधिक शक्तिशाली एवं लचीली होती हैं और अच्छे परिणाम देती हैं।

भाषा प्रौद्योगिकी : परिप्रेक्ष्य और अभिगम-3


 ......................................................................................................................................................
इकाई - 3 भाषा प्रौद्योगिकी : विविध स्तरीय परिप्रेक्ष्य
......................................................................................................................................................
भाषा प्रौद्योगिकी का कार्य मानव भाषाओं का सैद्धांतिक अध्ययन करके प्राप्त ज्ञान को मशीन (कंप्यूटर) में इस प्रकार से स्थापित करना है कि उसके माध्यम से मशीन द्वारा मानव भाषा संबंधी कार्य कराए जा सकें। इसे ही तकनीकी रूप से प्राकृतिक भाषा संसाधन (NLP) कहते हैं। प्राकृतिक भाषा संसाधन के अंतर्गत अनेक प्रकार के साफ्टवेयरों और प्रणालियों का विकास किया जाता है। इनमें से कुछ केवल कंप्यूटर से संबंधित हैं, तो कुछ का संबंध भाषा की इकाइयों के संग्रह और आधारभूत नियमों के विकास से है। अतः इन सभी को एक ही दृष्टि से देखने के बजाए अलग-अलग स्तरों पर देखा जा सकता है। इस दृष्टि से विचार करने पर भाषा प्रौद्योगिकी के अंतर्गत प्राकृतिक भाषा संसाधन के चार स्तर किए जा सकते हैं-
3.1 पूर्व प्राकृतिक भाषा संसाधन (Pre-NLP)
इसमें प्रोग्रामिंग, डाटाबेस प्रबंधन, फॉन्ट निर्माण और फॉन्ट परिवर्तन संबंधी कार्य आदि आते हैं। फॉन्ट निर्माण अथवा फॉन्ट परिवर्तन NLP नहीं है। NLP तो किसी पाठ के टंकित हो जाने बाद आरंभ होती है।
3.2 प्राथमिक प्राकृतिक भाषा संसाधन (Primary-NLP)
NLP के अंतर्गत भाषा संबंधी ज्ञान को स्वन, स्वनिम, रूपिम, शब्द/पद, पदबंध, वाक्य और प्रोक्ति सभी भाषायी स्तरों पर स्थापित करना होता है। यह कार्य मुख्यतः रूपविश्लेषण (Morph Analysis) और रूपसर्जन (Morph Generation) से आरंभ होता है। अतः शब्द स्तर तक के विश्लेषण और प्रजनन से जुड़े टूल्स का निर्माण करना प्राथमिक NLP है। इसमें कंप्यूटेशनल कोश निर्माण (Building Computational Lexicon), विराम-चिह्न अभिज्ञान एवं संसाधन (Punctuation Marks Recognition and Processing), लिप्यंतरण प्रणाली (Transliteration System), रूपविश्लेषण (Morph Analysis) और रूपसर्जन (Morph Generation), वर्तनी जाँचक निर्माण (Building Spell Checker), दिनांक, समय और मुद्रा अभिज्ञान (Date, Time and Currency Recognition) आदि कार्य आते हैं।
3.3 केंद्रीय प्राकृतिक भाषा संसाधन (Central-NLP)
इसके अंतर्गत शब्दभेद टैगिंग (Parts of Speech Tagging), पदबंध चिह्नन (Phrase Marking), व्याकरण जाँचक निर्माण (Building Grammar Checker), स्वचलित वाक्य प्रजनन (Automatic Sentence Generation) और पद-विच्छेदन (Parsing) संबंधी कार्य आते हैं। प्राथमिक NLP में विकसित किए गए सभी टूल्स इन प्रणालियों के विकास में किसी-न-किसी रूप में प्रयोग में आते हैं। रूपविश्लेषक (Morph Analyser) को एक टूल के रूप में देखा जा सकता है, किंतु भाषा व्यवहार संबंधी किसी कार्य में केवल रूपविश्लेषक की कोई प्रत्यक्ष उपयोगिता नहीं है। इस टूल को वर्तनी जाँचक, व्याकरण जाँचक, टैगर, पार्सर आदि किसी सॉफ्टवेयर में प्रयुक्त किया जा सकता है।
3.4 प्रगत प्राकृतिक भाषा संसाधन (Advanced-NLP)
केंद्रीय NLP ही मूल NLP है। इसमें बताए गए टूलों और सॉफ्टवेयरों द्वारा ही भाषायी अनुप्रयोग क्षेत्रों, जैसे- मशीनी अनुवाद (Machine Translation), ओ.सी.आर. (OCR), सूचना प्रत्यानयन (Information Retrival) आदि संबंधी कार्य होते हैं। किंतु इन सॉफ्टवेयरों के विकास में संदिग्धार्थकता (Ambiguity), नामपद अभिज्ञान (Name Entity Recognition : NER), बहुशब्दीय अभिव्यक्ति (Multi-word Expression- MWE), प्रोक्ति संदर्भ (Discourse References) आदि संबंधी चुनौतियाँ आती हैं। इसके अलावा अर्थ (Meaning) को मशीन में स्थापित करना तथा भाषा और तर्क (Meaning and Logic) को एक साथ जोड़ना आदि आज भी चुनौतिपूर्ण कार्य हैं। इन चुनौतियों को हल करने के लिए किया जाने वाला भाषा संसाधन संबंधी कार्य प्रगत NLP है।

भाषा प्रौद्योगिकी : परिप्रेक्ष्य और अभिगम-2


 ......................................................................................................................................................
इकाई - 2  भाषा प्रौद्योगिकी के भाषावैज्ञानिक अभिगम
......................................................................................................................................................
किसी ज्ञानक्षेत्र कार्य करने के लिए प्रयोग की जाने वाली पद्धति को अभिगम कहते हैं।
2.1 ऐतिहासिक अभिगम
·       किसी भाषा और उसके क्षेत्रीय रूपों का ऐतिहासिक दृष्टि से विश्लेषण
·       विभिन्न भाषाओं के पुरातन रूपों की पहचान/स्थापना
·       भाषा परिवर्तन (ध्वनि, रूप, वाक्य और अर्थ परिवर्तन) का अध्ययन
·       भाषाओं का आकृतिमूलक और पारिवारिक वर्गीकरण
2.2 संरचनात्मक अभिगम
·       स्वनिमिक अध्ययन
·       रूपिमिक अध्ययन (रूपिम और शब्द/पद)
·       पदबंध स्तरीय अध्ययन
·       उपवाक्य स्तरीय अध्ययन
·       वाक्य स्तरीय अध्ययन
·       प्रोक्ति स्तरीय अध्ययन
·       अर्थ स्तरीय अध्ययन
2.3 प्रकार्यात्म‍क अभिगम
·       भाषा का मूल प्रकार्य संप्रेषण है। संप्रेषण की प्रक्रिया में प्रकार्य की दृष्टि से भाषा के कई पक्ष सामने आते हैं। उन सबका अध्ययन इसके अंतर्गत आएगा।
·       भाषा के प्रकार्य संवेगात्मगक (Emotive), निदेशात्मक (Conative), काव्यात्मक (Poetic), अधिभाषा वैज्ञानिक (Metalinguistic), संदर्भपरक (Referential), संबंधात्मक (Phatic)
·       भाषा के प्रकार्यात्मक पक्ष पर प्राग संप्रदाय (Prague School) द्वारा विस्तृत कार्य किया गया है।
·       Michael A. K. Halliday द्वारा भाषा के विश्लेषण का सिस्टेमिक प्रकार्यात्मक मॉडल (systemic functional linguistic model) दिया गया है।
·       इस दिशा में किए गए नए कार्यों में Robert Van Valin का ‘Role and reference grammar’ महत्वपूर्ण है।
·       प्रकार्यविदों के अनुसार भाषा के सभी स्तरों पर प्रकार्य होते रहते हैं। इनमें से मुख्य तीन को इस प्रकार से देखा जा सकता है-
1.     आर्थी प्रकार्य (Semantic function): जैसे- (AgentPatientRecipient आदि), describing the role of participants in states of affairs or actions expressed.
2.     वाक्यात्मक प्रकार्य (Syntactic functions): (जैसे- Subject and Object आदि) , defining different perspectives in the presentation of a linguistic expression.
3.     व्यावहारिक प्रकार्य (Pragmatic functions) : (Theme and RhemeTopic and FocusPredicate आदि), defining the informational status of constituents, determined by the pragmatic context of the verbal interaction.
2.4 प्रजनक अभिगम
भाषा के नियमों को गणितीय सूत्रों की तरह व्यक्त करना।
नोऑम चॉम्स्की द्वारा 1957 ई. में Syntactic Structures में रूपांतरक प्रजनक व्याकरण (Transformational Generative Grammar : TG Grammar) का प्रतिपादन किया गया।
इसके स्तर –
·       रूपांतरक प्रजनक व्याकरण :  क्लासिकी सिद्धांत (1957)
·       मानक सिद्धांत (Standard Theory) (1965)
·       विस्तारित मानक सिद्धांत (Extended Standard Theory) (1972-75)
·       संसोधित विस्तारित मानक सिद्धांत (Revised Extended Standard Theory-REST) = जी.बी. सिद्धांत (GB Theory) (1978-1988)
·      न्यूनतमवादी प्रोग्राम (Minimalist Program) (1995)
   विस्तार से पढ़ें-
https://lgandlt.blogspot.com/2019/04/blog-post_3.html


डाटाबेस प्रबंधन प्रणाली संबंधी मुख्य बातें


डाटाबेस प्रबंधन प्रणाली संबंधी मुख्य बातें
·      वियू (view)
Datasheet view
PivotTable view
Pivotchart View
Design View
·      डाटा टाइप (data type)
Text
Number
Date/Time
Autonumber
Yes/no
…. आदि
·      प्राइमरी की (primary key)
किसी फील्ड को प्राइमरी की बना देने पर एक ही वैल्यू दो बार नहीं दे सकते।
·      सुपर की (super key)
·      डाटाबेस रिलेशन (database relation)
·      क्रमीकरण (sorting)
A-z
Z-a
·      फिल्टरिंग
·      Text Filters
ü Equals
ü Does not equals
ü Begins
ü Does not Begins
ü Contains
ü Does not Contains
ü Ends with
ü Does not ends with
·      Number Filters
ü Equals
ü Does not equals
ü Less than
ü Greater than
ü Between
·      टेबल टेंपलेट
ü बना बनाया नमूना
ü Contacts
ü Tasks
ü Issues
ü Events
ü Assets