वर्तनी जाँचक : कार्यप्रणाली
किसी भाषा के लेखन या टंकण
में होने वाली वर्तनी संबंधी त्रुटियों का परीक्षण करने वाली प्रणाली वर्तनी जाँचक
है। वर्तनी की त्रुटि शब्द और शब्दरूप (पद) के सही लेखन या टंकण से संबंधित है।
वर्तनी
जाँचक में त्रुटिपूर्ण शब्दों की पहचान करना अपेक्षाकृत सरल कार्य है। यदि प्रणाली
डाटाबेस आधारित है तो संबंधित भाषा के शब्द डाटाबेस में संग्रहीत कर दिए जाते हैं
और यदि पाठ का इनपुट मिलने पर उसके सभी शब्दों का डाटाबेस के शब्दों से मिलान किया
जाता है और जो शब्द नहीं प्राप्त होते हैं उन्हें त्रुटिपूर्ण शब्द के रूप में
प्रदर्शित किया जाता है।
वर्तनी जाँचक दोनों प्रकार के
विकसित किए जा सकते हैं- नियम आधारित और कार्पस आधारित। नियम-आधारित वर्तनी जाँचक के
भी दो प्रकार किए जा सकते हैं-
(1)
शब्दकोश-चालित (Lexicon driven)- इसमें एक शब्दकोश (डाटाबेस के रूप में) होता है। उसमें संबंधित भाषा के सभी
शब्द और शब्दरूप रख दिए जाते हैं। जब प्रणाली को किसी पाठ का इनपुट मिलता है तो वह
उसका शब्दों (पदों) में उसका खंडीकरण करती है और प्रत्येक शब्द को उठाकर डाटाबेस में
परीक्षण करती है। यदि शब्द डाटाबेस में हो तो उसे सही मान लिया जाता है और यदि न हो
तो उसका रंग लाल कर दिया जाता है अथवा रेखांकित (underline) कर
दिया जाता है। इसे एल्गोरिद्म के रूप में इस प्रकार प्रस्तुत कर सकते हैं-
एल्गोरिद्म
1. प्रारंभ
2. इनपुट
पाठ
3. पाठ
का खंडीकरण (पैराग्राफ, वाक्य, शब्द)
4. प्रत्येक
शब्द का डाटाबेस में परीक्षण -यदि शब्द डाटाबेस में हो तो चरण 05 नहीं तो चरण 06 पर
जाए।
5. उसे
छोड़कर अगला शब्द देखे (चरण 04)।
6. उस
शब्द का रंग लाल करे या उसे रेखांकित करे।
7. समाप्त
(2)
शब्दकोश + रूपिमिक नियम चालित (Lexicon + Morphological
Rules Driven) – इसमें डाटाबेस के रूप में प्रयुक्त
शब्दकोश में मूल शब्द रहते हैं और उनमें से विकारी शब्दों के रूप मशीन द्वारा रनिंग
टाइम में निर्मित किया जाता और इस प्रकार प्राप्त सभी शब्दों से परीक्षण किया जाता
है। परीक्षण की प्रक्रिया उपर्युक्त ही रहती है।
कार्पस
आधारित प्रणाली कार्पस से प्राप्त शब्द-संकलन के आधार पर कार्य करती है।
No comments:
Post a Comment