Total Pageviews

Monday, January 27, 2020

पाठ सारांशीकरण (Text Summarization)


पाठ सारांशीकरण  (Text Summarization) : 
पाठ सारांशीकरण  (Text Summarization) वह प्रक्रिया है, जिसके अंतर्गत किसी बड़े पाठ के मुख्य अंशों का संकलन करते हुए उसका सारांश प्रस्तुत किया जाता है। जब यह कार्य मशीन द्वारा किया जाता है, तो इसे स्वचलित पाठ सारांशीकरण  (Automatic Text Summarization) या स्वचलित सारांशीकरण  (Automatic Summarization) कहते हैं। यह प्राकृतिक भाषा संसाधन (NLP) का एक प्रमुख अनुप्रयोग क्षेत्र है। वर्तमान में इस दिशा में अनेक प्रकार के प्रयत्न किए जा रहे हैं। इसके अंतर्गत ऐसी संगणक प्रणालियों का विकास किया जाता है जो किसी पाठ की मुख्य और महत्वपूर्ण बातों का संज्ञान करते हुए उसका सारांश निर्मित कर सके।
तकनीकी क्षेत्र में स्वचलित पाठ सारांशीकरण  (Automatic Text Summarization) की आवश्यकता
वर्तमान समय में डिजिटल संसार में मानव अध्ययन-अध्यापन अथवा व्यवहार के लगभग सभी क्षेत्रों में असीमित मात्रा में डाटा उपलब्ध है। जब हम किसी खोज इंजन के माध्यम से किसी विषय पर कोई सामग्री खोजते हैं, तो उसके उत्तर स्वरूप करोड़ों की संख्या में परिणाम प्राप्त होते हैं, जो लिंकों के माध्यम से देखने के लिए उपलब्ध रहते हैं। अब यदि प्रत्येक लिंक को क्लिक करके उसमें दी हुई सामग्री को पढ़कर देखा जाए कि यह प्रयोक्ता के काम की है या नहीं तो इसमें समय और श्रम का अत्यधिक व्यय होगा।
इससे बचने के लिए ही प्राकृतिक भाषा संसाधन (NLP) के क्षेत्र में कार्य कर रहे शोधकर्ताओं द्वारा ऐसी प्रणालियों के विकास पर कार्य किया जा रहा है, जो संबंधित पाठ का सारांश रूप में मुख्य अंश प्रयोक्ता के सामने रख दे। उसे पढ़कर ही प्रयोक्ता समझ सकता है कि यह पाठ मेरे लिए उपयोगी होगा या नहीं। इसे गूगल खोज के एक उदाहरण से देख सकते हैं-



इसमें हम देख सकते हैं कि ‘Language Technology’ के बारे में खोज करने पर गूगल खोज इंजन द्वारा इसके 5 अरब दस करोड़ परिणाम दिए गए हैं। उनमें से पहले सबसे अधिक पढ़े गए का सारांश थोड़े विस्तार से और शेष पाठों का दो-दो पंक्तियों में परिचय या सारांश प्रस्तुत किया गया है।
इससे अधिक सारांश भी प्रस्तुत किया जा सकता है, किंतु उसके लिए सक्षम पाठ सारांशीकरण प्रणाली की आवश्यकता होगी। 
पाठ सारांशीकरण प्रणाली की कार्यविधि-

सर्वप्रथम पाठ सारांशीकरण प्रणाली मूल पाठ से मुख्य शब्दों (keywords) का चयन करती है और उन्हें आपस में जोड़कर नए वाक्य का निर्माण करती है। इस प्रक्रिया में अनावश्यक विस्तार के लिए आए हुए शब्द छोड़ दिए जाते हैं। एक पाठ सारांशीकरण प्रणाली की कार्यविधि को https://blog.floydhub.com/gentle-introduction-to-text-summarization-in-machine-learning/ पर एनिमेटेड चित्र के माध्यम से इस प्रकार से दिखाया गया है-

स्वचलित पाठ सारांशीकरण के अभिगम  (Approaches to Automatic Text Summarization)
स्वचलित पाठ सारांशीकरण  (Automatic Text Summarization) प्रणालियों के विकास के लिए मुख्यतः तीन अभिगमों का प्रयोग किया जाता है-
1.1     निष्कर्षण-आधारित सारांशीकरण (Extraction-based summarization)
इसमें मूलतः कथ्य को मूल पाठ से निकाल लिया जाता है और उसके आधार पर सारांश प्रस्तुत किया जाता है। सारांश निर्मित करने के लिए कथ्य में किसी प्रकार का परिवर्तन नहीं किया जाता।  
1.2     अमूर्तन-आधारित सारांशीकरण (Abstraction-based summarization)
इसमें मूल पाठ से कथ्य को निकालकर उसका संक्षेपीकरण करते हुए इस प्रकार से प्रस्तुत किया जाता है, कि वह पाठ के मूल कथन के यथासंभव निकट हो।
1.3 साधित    सारांशीकरण (Aided summarization)
इसमें मशीन के साथ-साथ मानव का भी सहयोग लिया जाता है।

No comments:

Post a Comment