Total Pageviews

Friday, July 19, 2019

प्रमुख कार्पस


प्रमुख कार्पस
1. अंतरराष्ट्रीय परिदृश्य-
1.1 अंग्रेजी
(क) Brown University Standard Corpus of Present-Day American English
(ख) Lancaster-Oslo-Bergen Corpus
लेबल
पाठ क्षेत्र
ब्राउन कार्पस
LOB कार्पस
A
Press: reportage
44
44
B
Press: editorial
27
27
C
Press: reviews
17
17
D
Religion
17
17
E
Skills, trades and hobbies
36
38
F
Popular lore
48
44
G
Belles lettres, biography, essays
75
77
H
Miscellaneous (documents, reports, etc.)
30
30
J
Learned and scientific writings
80
80
K
General fiction
29
29
L
Mystery and detective fiction
24
24
M
Science fiction
6
6
N
Adventure and western fiction
29
29
P
Romance and love story
29
29
R
Humour
9
9
Total
500
500
(ग) Colhapur Corpus of Indian English
एक मिलियन शब्द, इसे लैनकेस्टर ओस्लो बर्गेन कॉर्पस और ब्राउन कार्पस के समानांतर ही तैयार किया गया है।
Text Categories
No. of texts in each category

American
Corpus
British
Corpus
Indian
Corpus
A
44
44
44
B
27
27
27
C
17
17
17
D
17
17
17
E
36
38
38
F
48
44
44
G
75
77
70
H
Miscellaneons (Govt. Documents,
foundation reports, industry reports,
College catalogue, industry house organ).
30
30
37
J
80
80
80
K
29
29
58
L
24
24
24
M
6
6
2
N
29
29
15
P
29
29
18
R
9
9
9
Total
500
500
500

(घ) कोलिंस कोब्यूल्ड कार्पस या बैंक ऑफ इंग्लिश
(ङ) British National Corpus : 100 मिलियन शब्द
1.2 फ्रांसीसी
French text corpora
Free Corpora of Spoken French
1.3 अरबी/फ़ारसी/उर्दू-
Arabic text corpora
International Corpus of Arabic
1.4 चीनी
Chinese Simplified text corpora
The UCLA Written Chinese Corpus
1.5 जापानी
Japanese text corpora
Corpus of Japanese
2. भारतीय परिदृश्य-
निलाद्री शेखर दास (Niladri Sekhar Dash, Indian Statistical Institute, Kolkata) के शोधपत्र ‘Language Corpora: Present Indian Need’ के आधार पर यहाँ पर दिया जा रहा है:
भाग
भाषा
संस्थान
आरंभ वर्ष
समापन वर्ष
शब्द संख्या
I
अँग्रेज़ी , हिंदी, पंजाबी
IIT,नई दिल्ली
1991
1994
3 मिलियन
II
तेलगू, कन्नड़,
तमिल, मलयालम
CIIL, मैसूर
1991
1994
Do
III
मराठी, गुजराती
DC, पुने
1991
1994
Do
IV
उड़िया, बँगला, आसामी
IIALS, भुवनेश्वर
1991
1994
Do
V
संस्कृत
SSU, वाराणसी
1991
1994
Do
VI
उर्दू, सिंधी, काश्मीरी
AMU, अलीगढ़
1992
1994
Do
1994 में अभी कई परियोजनाएँ पूरी नहीं हुई थीं तभी DOE ने आगे फंडिंग करने से इनकार कर दिया क्योंकि इसमें बहुत अधिक समय और पैसे की आवश्यकता थी। इसके अलावा विभिन्न विद्वानों द्वारा भी कार्पस की उपयोगिता पर प्रश्नचिह्न लगाया जा रहा था। इसके पश्चात् सूचना प्रसारण मंत्रालय (Ministry of Information Technology: MIT) द्वारा इस पर ध्यान दिया गया है। बाद में कार्पस निर्माण के क्षेत्र में कार्य करने वाली कुछ प्रमुख संस्थाओं की सूची निलाद्री शेखर दास के आधार पर इस प्रकार है:
संस्थाएँ
भाषाएँ
भारतीय प्रौद्योगिकी संस्थान, कानपुर
हिंदी, नेपाली
भारतीय प्रौद्योगिकी संस्थान, मुंबई
मराठी, कोंकणी
भारतीय प्रौद्योगिकी संस्थान, गुवाहाटी
आसामी, मणिपुरी
भारतीय विज्ञान संस्थान, बंगलौर
कन्न्ड़, संस्कृत
भारतीय सांख्यिकीय संस्थान, कलकत्ता
बँगला
जवाहरलाल नेहरू विश्वविद्यालय, नई दिल्ली
संस्कृत
हैदराबाद विश्वविद्यालय, हैदराबाद
तेलगू
अन्ना विश्वविद्यालय, चेन्नई
तमिल
MS विश्वविद्यालय, बड़ौदा
गुजराती
उत्कल विश्वविद्यालय, भुवनेश्वर
उड़िया
थापर अभियांत्रिकी एवं तकनीकी संस्थान, पटियाला
पंजाबी
ER&DCI, त्रिवेंद्रम
मलयालम
C-DAC, पुने
उर्दू, संस्कृत,काश्मीरी


No comments:

Post a Comment