Total Pageviews

Thursday, September 28, 2017

नेट:भाषाविज्ञान -1

Q.1 How many morpheme Portmanteau morph contains?
A. Three  B. two  C. One  D. Empty morph

Q.2 Endocentric, Exocentric, appositional and copulative are the types of -
A. Simple word B. Complex word C. Compound word
D. Free morpheme

Q.3 The past tense from of the word 'cut' is a case of -
A. Replacive morpheme B. Suppelation
C. Zero modification  D. Affixation

Q.4 'smog' is an example of -
A. Compounding B. Acronym
C. Blending D. Back formation

Q.5 The addition of _ _ _ _ _ may change only the syntactic category of the word.
A. Inflectional affix  B. Derivational affix
C. Bound morpheme  D. None

 --- Satyendra Kumar,
      M.phil ( Language technology )

Wednesday, September 27, 2017

सामाजिक व्यवहार के रूप में भाषा


भाषा और समाज का संबंध अभिन्न है। मनुष्य के पास भाषा सीखने की क्षमता होती है, किंतु वह भाषा को तभी सीख पाता है जब उसे एक भाषायी समाज का परिवेश प्राप्त होता है। एक ओर समाज के माध्यम से ही भाषा एक पीढ़ी से दूसरी पीढ़ी तक पहुँचती है, तो दूसरी ओर भाषा के माध्यम से समाज संगठित और संचालित होता है। यदि मनुष्य से भाषा छीन ली जाए तो उसकी सामाजिक संरचना भी ध्वस्त हो जाएगी। इसी प्रकार यदि किसी व्यक्ति को समाज के बाहर (जैसे, जंगल में) छोड़ दिया जाए, जहाँ वह दूसरे व्यक्तियों से नहीं मिल सकता तो भाषा उसके साथ ही मृत हो जाएगी।
भाषा अध्ययन के संदर्भ में मनोवादी और व्यवहारवादी विचारधाराएँ प्रचलित हैं। व्यवहारवादियों द्वारा भाषा को सामाजिक वस्तु माना गया है। उनके अनुसार भाषा समाज में होती है और मानव शिशु इसे अपने समाज से ही ग्रहण करता है।
उपर्युक्त बातों के आलोक में भाषा को एक सामाजिक व्यवहार या सामाजिक वस्तु के रूप में देखा जा सकता है। इसे निम्नलिखित बिंदुओं द्वारा स्पष्ट किया जा सकता है-
1. सामाजिक जीवन के आधार के रूप में भाषा
भाषा मनुष्य के सामाजिक जीवन का आधार है। इसी के कारण मनुष्य एक सामाजिक प्राणी के रूप में परिभाषित हो सका है। भाषा के अभाव में विचारों की अभिव्यक्ति तथा आदान-प्रदान संभव नहीं है। अतः भाषा नहीं होने पर हम भी अन्य प्राणियों की तरह बिखर जाएँगे।
2. सांस्कृतिक विरासत के रूप में भाषा
भाषा किसी समाज और संस्कृति की वाहक होती है। यह एक पीढ़ी से दूसरी पीढ़ी को प्राप्त होती है। मानव शिशु के परिवार और समाज में जो भाषा बोली जाती है उसे वह सीखता है।
3. सामाजिक पहचान के रूप में भाषा
भाषा किसी भी व्यक्ति की सामाजिक पहचान कराने में सक्षम होती है। व्यक्ति का सुर (tone), शब्द चयन (word selection) और वार्तालाप का तरीका उसके भौगोलिक क्षेत्र, धर्म और सामाजिक पृष्ठभूमि की पहचान करा देते हैं।


NLP में विसंरचन और पुनरसंरचन (Deformation and reformation in NLP)


विसंरचन (Deformation) : एक इनपुट पाठ का विश्लेषण करते हुए उसमें भाषिक इकाइयों और भाषेतर इकाइयों को अलग-अलग करना।
·       भाषिक इकाइयाँ - वर्ण, अंक, सूत्र, विशेष संकेत आदि।
·       भाषेतर इकाइयाँ- चित्र, लोगोग्राम, ग्राफ, डायग्राम आदि।
टंकित पाठ की रूपरचना, जैसे- बोल्ड, इटैलिक, अंडरलाइन और रंग प्रयोग आदि को चिह्नित करना और उन्हें अलगाते हुए मशीनी संसाधन हेतु केवल पाठ प्राप्त करना।
पुनरसंरचन (Reformation) : इनपुट पाठ की तरह आउटपुट पाठ पुनःसंरचित करना।
अनुप्रयोग : मशीनी अनुवाद (Machine Translation), लिप्यंतरण (Transliteration), पाठ सारांशीकरण (Text Summerrization) आदि क्षेत्रों में।




Tuesday, September 19, 2017

ऋग्वेद के बारे में महत्‍वपूर्ण जानकारी

ऋग्वेद के बारे में महत्‍वपूर्ण जानकारी

  1. यह सबसे प्राचीनतम वेद है
  2. इसमें 10 मंडल, 8 अष्‍टक, 1028 सूक्‍त तथा 10462 मंंत्र हैं
  3. इसमें सबसे अधिक सुक्‍त 250 सर्वाधिक प्रतापी देवता इंद्र को तथा 200 श्‍लाेेक अग्नि को समर्पित है
  4. इसमें कुल 33 देवी-देवताओं का उल्‍लेख मिलता है
  5. इसमें लगभग 25 नदियों का वर्णन मिलता है जिसमें सर्वाधिक महत्‍वपूर्ण नदी सिन्‍धु का वर्णन कई बार हुआ है
  6. ऋग्वेद में सरस्‍वती सबसे पवित्र नदी मनी गई है
  7. इसमें गंगा एवं सरयू का एक बार तथा यमुना का दो बार उल्‍लेेख हुअा है

अधिक जानकारी के लिए इस लिंक पर जाएँ-

http://www.learnsabkuch.in/2016/06/important-information-about-rigveda-in-Hindi.html

Friday, September 15, 2017

व्याख्यान : प्रो. राम भावसार

16.09.2017
विषय : machine learning
Approaches
Rule based
Statistical

Laws दो तरह के हैं-
Nature law
Man made law

Statistical = data driven approach
मशीन data से सीखेगी। हम सीखते हैं-
Task करने के लिए।
हर बार task करने से-
Experience
Machine learns Experience 'E' with task T and improves performance P.
इसके लिए training phases
(जैसे हमारे लिए semester teaching.)
इसके बाद evaluation phase.
सामान्य सिस्टम
Input - process - output
Machine learning system
Input, output लेता है और program देता है।
बीच में learning algorithms होते हैं।
जैसे-
किसी परीक्षा में passing no. न पता हो।
अब एक marksheet में 10 नंबर पर फेल।
System जान गया कि 10 और इससे कम फेल।
दूसरी marksheet में 78 पर पास।
System जान गया कि 78 और इससे अधिक नंबर पाने वाले पास।
इसी तरह 100-1000 marksheets में 39 फेल, 40 पास का data मिल जाता है। अब पुराने नियम छोड़कर नए नियम लेगा।

इसी तरह बड़े डाटा पर सीखकर system काम करेगा।
सीखने की भी सीमा है। इसलिए evaluation-
Precision
Recall
F-measure
Learning = नए परिवेश में स्थितियों को देखकर अपने आप को ढाल लेना।
Data warehouse : जिसमें historical data रखा जाता है। इसके ऊपर analytical processing करते हैं।
Data mining
Tasks : बड़े data में से useful data निकालना।
Statitians डाटा analysis के methods तैयार करते हैं।
उनके methods को tasks पर apply करना machine learning है।
प्रकार
Supervised learning
Unsupervised learning
Reinforcement learning : उसी समय आई समस्या के अनुसार कदम उठाना।

Machine learning में data को set of features कहते हैं। features कितने भी हो सकते हैं।

व्याख्यान : डॉ. राम भावसार

15.09.2017

Computer = number crunching machine
Computing = doing more than one operations at a time

इनपुट process आउटपुट
          Memory
का सिद्धांत Von numan द्वारा दिया गया।

पहली high level language BASIC है।

प्रोग्रामिंग में प्रयुक्त कथन :
Imperative
Conditional

Iterative
कंप्यूटर पर दिए गए आदेश unambiguous होने चाहिए।
Fortran = formula translation
C आदि भाषाएँ आईं।
इनके statements सीमित हैं।
NLP : भाषा से जुड़े कौन से काम कराए जा सकतेहैं
Typing
Question answering
Machine translation
NLU
NL Generation
Spell checking
Grammar checking
Text summarization
Text classification
Sentiment analysis
Image annotation

भाषा के विश्लेषण के लिए levels देखे गए
Pragmatics
Semantics
Syntax
Morphology
Phonology
अतः अपना system बनाने से पहले उसका level तय करें।
सब पर अलग अलग तरह के tools.
Approaches to NLP
Rule based
Machine learning
MACHINE LEARNING का उद्देश्य है मशीन को अपने algorithms द्वारा सीखाना।

NLP के केंद्र में machine translation है।
इसकी शुरुआत Warren Weaver द्वारा।
1952 memorandum of machine translation.
Georgetown University में एक system बनाया गया - Georgetown experiment.
1966 में ALPAC report. फिर काम लगभग बंद।
बाद में systran.
ALPAC ने MT के लिए grammar के लोगों का भी होना आवश्यक। = computational linguistics
इसके अलावा evaluation of the output of a MT System का भी विचार दिया।

कंप्यूटर में मूलतः
Searching sorting techniques का प्रयोग है।
Alan Turing
ने कंप्यूटर को सबसे वफादार नौकर बताया और एक test दिया।
Tesla और Google द्वारा automatic cars का परीक्षण किया गया है।
इससे science के अलावा अन्य क्षेत्रों में कंप्यूटर के प्रयोग की शुरुआत हुई। इसी क्रम में AI की शुरुआत।
सबसे नजदीकी क्षेत्र के रूप में NLP  उभरकर आया।
AI
Every problem has many solutions.
Sofia Robot का interview देखें।

Thursday, September 7, 2017

शब्दकोश कार्यशाला 2017 : सामग्री

'शब्दकोश निर्माण प्रशिक्षण कार्यशाला' के व्याख्यानों के प्रमुख बिंदु इस प्रकार हैं- 
·        शब्दकोश : परिचय
·        शब्दकोश : स्वरूप एवं परिभाषा
·        शब्दकोश और भाषा
भाषा विचार एवं संप्रेषण के लिए ध्वनि प्रतीकों की व्यवस्था।
ध्वनि  शब्द  वाक्य
ध्वनि (स्वनिम) रूपिम शब्द/पद पदबंध उपवाक्य वाक्य प्रोक्ति
अर्थ
·        कोश और कोष
·        कोशकला और कोशविज्ञान (Lexicography and Lexicology)
·        शब्दकोश और प्रविष्टि
·        शब्दकोश में शब्दार्थ
·        शब्दकोश और पारिभाषिक शब्दावली
·        शब्दकोश और समांतर कोश
·        शब्दकोश और विश्वकोश
·        प्रमुख शब्दकोश
·        शब्दकोश : ऐतिहासिक परिदृश्य
·        संस्कृतकाल में शब्दकोश
·        निघंटु : स्वरूप और विविध निघंटु
·        शब्दकोश की पाश्चात्य परंपरा
·        कुछ अन्य प्रमुख भाषाओं की शब्दकोश परंपरा
·        विश्व के कुछ प्रमुख प्राचीनतम शब्दकोश
·        हिंदी शब्दकोश परंपरा
·        प्रमुख वर्तमान अंग्रेजी एवं हिंदी शब्दकोश
·        शब्दकोश के प्रकार
·        विषय  के आधार पर
·        भाषा के आधार पर
·        प्रविष्टि के आधार पर
·        काल के आधार पर
·        अर्थ  के आधार पर
·        प्रविष्टि क्रम के आधार पर
·        विशिष्ट दृष्टिकोण  के आधार पर
·        आकार  के आधार पर
·        प्रयोक्ता के आधार पर
·        माध्यम के आधार पर
·        शब्दकोश निर्माण प्रक्रिया
·        कोशनिर्माण :- कोशनिर्माण एक प्रक्रिया है जो कई चरणों से गुजरते हुए संपन्न होती है। इस प्रक्रिया को मुख्यत: तीन भागों में बाँटा जा सकता है:
o   पूर्वनियोजन (Preplanning)
o   निर्माण कार्य (Making of Dictionary)
o   कोश प्रबंधन (Dictionary Management)
·        पूर्वनियोजन (Preplanning) :- कोश निर्माण आरंभ करने से पूर्व उसके संबंध में विभिन्न दृष्टियों से विचार किया जाता है जिसे पूर्वनियोजन के अंतर्गत रखते हैं। इसमें सबसे पहले कुछ बातों को सुनिश्चित करना होता है जिनमें से प्रमुख इस प्रकार हैं :
o   कोश का उद्देश्य (सामान्य, विशिष्ट)
o   कोश का आकार (वृहद, लघु)
o   कोश का प्रकार :- कोश के प्रकर का निर्धारण कुछ आधारों पर होता है; जैसे : भाषा (एकभाषिक/द्विभाषिक/बहुभाषिक), अर्थ (शब्दार्थ/पर्याय/विलोम) आदि।
o   प्रविष्टियों की संख्या
o   प्रविष्टियों के चयन का आधार
o   प्रविष्टियों का क्रम (वर्णक्रमानुसारी/ अंत्यवर्णक्रमानुसारी)
·        (ए) एक प्रविष्टि से संबंधित सूचनाएँ (संख्या एवं क्रम)
·        निर्माण कार्य (Making of Dictionary) :- यह कोशनिर्माण प्रक्रिया का केंद्रीय चरण है। इसमें कोश के पूर्वनिर्धारित स्वरूप के आधार पर निर्माण कार्य किया जाता है। इसके निम्नलिखित चरण हैं :
§  सामग्री संकलन
§  प्रविष्टियों का चयन
§  एक प्रविष्टि के साथ संबंधित सूचनाओं को जोड़ना
§  प्रविष्टियों एवं उनसे संबंधित सूचनाओं का लेखन एवं संकलन
§  संकलित सामग्री का विश्लेषण
·        कोश प्रबंधन (Dictionary Management) :- यह कोश के निर्मित हो जाने के बाद की प्रक्रिया है। इसमें निम्नलिखित कार्य किए जाते हैं :
§  कोश से संबंधित सूचनाएँ प्रदान करना
§  कोश की उपयोगिता के निर्देश
§  कोश का अद्यतन (update)
·        शब्दकोश में प्रविष्टि
·        कोश प्रविष्टि और संबंधित सूचनाएँ “वे शब्द (या शब्दस्तरीय इकाइयाँ) जिन्हें किसी कोश में व्यवस्थित एवं क्रमबद्ध रूप से रखते हुए उनके बारे में व्याकरणिक एवं आर्थी सूचनाएँ प्रदान की जाती हैं; कोश प्रविष्टि कहलाते हैं।” किसी भी कोश में प्रविष्टियों को रखने का एक पूर्वनिर्धारित क्रम होता है। प्रत्येक प्रविष्टि के साथ कुछ सूचनाएँ दी जाती हैं। कोश प्रविष्टियों से संबंधित सूचनाओं को दो वर्गों में वर्गीकृत किया जा सकता है : व्याकरणिक सूचनाएँ और आर्थी सूचनाएँ। कोश प्रविष्टि से संबंधित सूचनाओं के संदर्भ में तीन बातें महत्वपूर्ण होती हैं :
·        कितनी सूचनाएँ दी जाएंगी?
·        कौन-कौन सी सूचनाएँ दी जाएँगी ?
·        सूचनाओं का क्रम क्या होगा?
·        इनके निर्धारण में कोश के आकार और प्रकार को आधार बनाया जाता है। सामान्यत: किसी कोश में एक प्रविष्टि से संबंधित निम्नलिखित सूचनाएँ हो सकती हैं :
·         उच्चारणात्मक सूचनाएँ
·        शब्द में आए हुए वर्णों को अलग-अलग करना
·        दाब (stress) को दिखाना
·        मात्रा (length) को दिखाना
·        व्युत्पत्ति
·         व्याकरणिक सूचनाएँ
शब्द भेद, वचन, लिंग, पुरुष (सर्वनामों के लिए)
·         आर्थी सूचनाएँ
अर्थ (एक से अधिक होने पर मुख्य से गौण के क्रम में), संदर्भगत अर्थ, व्याख्या एवं परिभाषा, चित्र, उदाहरण, नामांकन, प्रतिसंदर्भ, पर्याय, विलोम                                 
·        शब्दकोश निर्माण की चुनौतियाँ
पूर्वनियोजन (Preplanning) संबंधी
(अ)     कोश का आकार का निर्धारण
(आ)   कोश के प्रकार का निर्धारण
(इ)        प्रविष्टियों की संख्या तय करना
(ई)        प्रविष्टियों के चयन के आधारों को निर्धारित करना
(उ)       एक प्रविष्टि से संबंधित सूचनाओं की संख्या एवं क्रम को निश्चित करना
ख) निर्माण संबंधी
अ) सामग्री स्रोत निर्धारण एवं संकलन संबंधी
आ) प्रविष्टियों चयन संबंधी
इ) एक प्रविष्टि के साथ संबंधित सूचनाओं के निर्धारण संबंधी
ग) कोश प्रबंधन संबंधी
घ) कोश के अद्यतन (update) संबंधी