प्रमुख कार्पस
1. अंतरराष्ट्रीय परिदृश्य-
1.1 अंग्रेजी
(क) Brown
University Standard Corpus of Present-Day American English
(ख) Lancaster-Oslo-Bergen
Corpus
लेबल
|
पाठ क्षेत्र
|
ब्राउन कार्पस
|
LOB कार्पस
|
A
|
Press: reportage
|
44
|
44
|
B
|
Press: editorial
|
27
|
27
|
C
|
Press: reviews
|
17
|
17
|
D
|
Religion
|
17
|
17
|
E
|
Skills, trades and hobbies
|
36
|
38
|
F
|
Popular lore
|
48
|
44
|
G
|
Belles lettres, biography, essays
|
75
|
77
|
H
|
Miscellaneous (documents, reports, etc.)
|
30
|
30
|
J
|
Learned and scientific writings
|
80
|
80
|
K
|
General fiction
|
29
|
29
|
L
|
Mystery and detective fiction
|
24
|
24
|
M
|
Science fiction
|
6
|
6
|
N
|
Adventure and western fiction
|
29
|
29
|
P
|
Romance and love story
|
29
|
29
|
R
|
Humour
|
9
|
9
|
Total
|
500
|
500
|
(ग) Colhapur
Corpus of Indian English
एक मिलियन शब्द, इसे
लैनकेस्टर ओस्लो बर्गेन कॉर्पस और ब्राउन कार्पस के समानांतर ही तैयार किया गया
है।
Text Categories
|
No. of texts in
each category
|
|||
|
American
Corpus |
British
Corpus |
Indian
Corpus |
|
44
|
44
|
44
|
||
B
|
27
|
27
|
27
|
|
C
|
17
|
17
|
17
|
|
D
|
17
|
17
|
17
|
|
E
|
36
|
38
|
38
|
|
F
|
48
|
44
|
44
|
|
G
|
75
|
77
|
70
|
|
H
|
Miscellaneons (Govt.
Documents,
foundation reports, industry reports, College catalogue, industry house organ). |
30
|
30
|
37
|
J
|
80
|
80
|
80
|
|
K
|
29
|
29
|
58
|
|
L
|
24
|
24
|
24
|
|
M
|
6
|
6
|
2
|
|
N
|
29
|
29
|
15
|
|
P
|
29
|
29
|
18
|
|
R
|
9
|
9
|
9
|
|
Total
|
500
|
500
|
500
|
(घ) कोलिंस कोब्यूल्ड कार्पस या बैंक
ऑफ इंग्लिश
(ङ) British
National Corpus : 100
मिलियन शब्द
1.2 फ्रांसीसी
French text corpora
Free Corpora of Spoken French
1.3 अरबी/फ़ारसी/उर्दू-
Arabic text corpora
International Corpus of Arabic
1.4 चीनी
Chinese Simplified text corpora
The UCLA Written Chinese Corpus
1.5 जापानी
Japanese text corpora
Corpus of Japanese
2. भारतीय परिदृश्य-
निलाद्री शेखर दास (Niladri Sekhar Dash, Indian Statistical Institute, Kolkata) के शोधपत्र
‘Language Corpora: Present Indian Need’ के आधार पर यहाँ पर
दिया जा रहा है:
भाग
|
भाषा
|
संस्थान
|
आरंभ वर्ष
|
समापन वर्ष
|
शब्द संख्या
|
I
|
अँग्रेज़ी , हिंदी,
पंजाबी
|
IIT,नई
दिल्ली
|
1991
|
1994
|
3 मिलियन
|
II
|
तेलगू, कन्नड़,
तमिल, मलयालम
|
CIIL, मैसूर
|
1991
|
1994
|
Do
|
III
|
मराठी, गुजराती
|
DC, पुने
|
1991
|
1994
|
Do
|
IV
|
उड़िया, बँगला,
आसामी
|
IIALS, भुवनेश्वर
|
1991
|
1994
|
Do
|
V
|
संस्कृत
|
SSU, वाराणसी
|
1991
|
1994
|
Do
|
VI
|
उर्दू, सिंधी,
काश्मीरी
|
AMU, अलीगढ़
|
1992
|
1994
|
Do
|
1994
में अभी कई परियोजनाएँ पूरी नहीं हुई थीं तभी DOE ने आगे फंडिंग करने से
इनकार कर दिया क्योंकि इसमें बहुत अधिक समय और पैसे की आवश्यकता थी। इसके अलावा विभिन्न
विद्वानों द्वारा भी कार्पस की उपयोगिता पर प्रश्नचिह्न लगाया जा रहा था। इसके पश्चात्
सूचना प्रसारण मंत्रालय (Ministry of Information Technology: MIT) द्वारा इस पर ध्यान दिया गया है। बाद में कार्पस निर्माण के क्षेत्र में कार्य
करने वाली कुछ प्रमुख संस्थाओं की सूची निलाद्री शेखर दास के आधार पर इस प्रकार है:
संस्थाएँ
|
भाषाएँ
|
भारतीय प्रौद्योगिकी संस्थान, कानपुर
|
हिंदी, नेपाली
|
भारतीय प्रौद्योगिकी संस्थान, मुंबई
|
मराठी, कोंकणी
|
भारतीय प्रौद्योगिकी संस्थान, गुवाहाटी
|
आसामी, मणिपुरी
|
भारतीय विज्ञान संस्थान, बंगलौर
|
कन्न्ड़, संस्कृत
|
भारतीय सांख्यिकीय संस्थान, कलकत्ता
|
बँगला
|
जवाहरलाल नेहरू विश्वविद्यालय, नई दिल्ली
|
संस्कृत
|
हैदराबाद विश्वविद्यालय, हैदराबाद
|
तेलगू
|
अन्ना विश्वविद्यालय, चेन्नई
|
तमिल
|
MS विश्वविद्यालय,
बड़ौदा
|
गुजराती
|
उत्कल विश्वविद्यालय, भुवनेश्वर
|
उड़िया
|
थापर अभियांत्रिकी एवं तकनीकी संस्थान, पटियाला
|
पंजाबी
|
ER&DCI, त्रिवेंद्रम
|
मलयालम
|
C-DAC, पुने
|
उर्दू, संस्कृत,काश्मीरी
|
No comments:
Post a Comment