पाठ
सारांशीकरण (Text
Summarization) :
पाठ सारांशीकरण (Text Summarization) वह प्रक्रिया है, जिसके अंतर्गत किसी बड़े पाठ के मुख्य अंशों का संकलन करते हुए उसका सारांश
प्रस्तुत किया जाता है। जब यह कार्य मशीन द्वारा किया जाता है, तो इसे स्वचलित पाठ सारांशीकरण (Automatic
Text Summarization) या स्वचलित सारांशीकरण (Automatic Summarization) कहते हैं। यह प्राकृतिक भाषा संसाधन (NLP) का एक प्रमुख
अनुप्रयोग क्षेत्र है। वर्तमान में इस दिशा में अनेक प्रकार के प्रयत्न किए जा रहे
हैं। इसके अंतर्गत ऐसी संगणक प्रणालियों का विकास किया जाता है जो किसी पाठ की
मुख्य और महत्वपूर्ण बातों का संज्ञान करते हुए उसका सारांश निर्मित कर सके।
तकनीकी क्षेत्र में स्वचलित पाठ सारांशीकरण (Automatic Text Summarization) की आवश्यकता
वर्तमान समय में डिजिटल संसार में मानव अध्ययन-अध्यापन अथवा व्यवहार
के लगभग सभी क्षेत्रों में असीमित मात्रा में डाटा उपलब्ध है। जब हम किसी खोज इंजन
के माध्यम से किसी विषय पर कोई सामग्री खोजते हैं, तो उसके उत्तर स्वरूप करोड़ों की संख्या में परिणाम
प्राप्त होते हैं, जो लिंकों के माध्यम से देखने के लिए उपलब्ध
रहते हैं। अब यदि प्रत्येक लिंक को क्लिक करके उसमें दी हुई सामग्री को पढ़कर देखा जाए
कि यह प्रयोक्ता के काम की है या नहीं तो इसमें समय और श्रम का अत्यधिक व्यय होगा।
इससे बचने के लिए ही प्राकृतिक भाषा संसाधन (NLP) के क्षेत्र में कार्य कर रहे
शोधकर्ताओं द्वारा ऐसी प्रणालियों के विकास पर कार्य किया जा रहा है, जो संबंधित पाठ का सारांश रूप में मुख्य अंश प्रयोक्ता के सामने रख दे। उसे
पढ़कर ही प्रयोक्ता समझ सकता है कि यह पाठ मेरे लिए उपयोगी होगा या नहीं। इसे गूगल खोज
के एक उदाहरण से देख सकते हैं-
इसमें हम देख सकते हैं कि ‘Language Technology’ के बारे में खोज करने पर गूगल खोज इंजन
द्वारा इसके 5 अरब दस करोड़ परिणाम दिए गए हैं। उनमें से पहले सबसे अधिक पढ़े गए का सारांश
थोड़े विस्तार से और शेष पाठों का दो-दो पंक्तियों में परिचय या सारांश प्रस्तुत किया
गया है।
इससे अधिक सारांश भी प्रस्तुत किया जा सकता है, किंतु उसके लिए सक्षम पाठ सारांशीकरण
प्रणाली की आवश्यकता होगी।
पाठ सारांशीकरण प्रणाली की कार्यविधि-
सर्वप्रथम पाठ सारांशीकरण प्रणाली मूल पाठ से मुख्य शब्दों (keywords) का चयन करती है और उन्हें
आपस में जोड़कर नए वाक्य का निर्माण करती है। इस प्रक्रिया में अनावश्यक विस्तार के
लिए आए हुए शब्द छोड़ दिए जाते हैं। एक पाठ सारांशीकरण प्रणाली की कार्यविधि को https://blog.floydhub.com/gentle-introduction-to-text-summarization-in-machine-learning/ पर एनिमेटेड चित्र के माध्यम से इस प्रकार से दिखाया गया है-
स्वचलित पाठ सारांशीकरण के अभिगम (Approaches to Automatic Text Summarization) –
स्वचलित पाठ सारांशीकरण
(Automatic Text Summarization) प्रणालियों
के विकास के लिए मुख्यतः तीन अभिगमों का प्रयोग किया जाता है-
1.1 निष्कर्षण-आधारित
सारांशीकरण (Extraction-based
summarization)
इसमें मूलतः कथ्य को मूल पाठ से निकाल लिया जाता है और उसके आधार
पर सारांश प्रस्तुत किया जाता है। सारांश निर्मित करने के लिए कथ्य में किसी प्रकार
का परिवर्तन नहीं किया जाता।
1.2 अमूर्तन-आधारित
सारांशीकरण (Abstraction-based
summarization)
इसमें मूल पाठ से कथ्य को निकालकर उसका संक्षेपीकरण करते हुए इस
प्रकार से प्रस्तुत किया जाता है, कि वह पाठ के मूल कथन के यथासंभव निकट हो।
1.3 साधित सारांशीकरण
(Aided summarization)
इसमें मशीन के साथ-साथ मानव का भी सहयोग लिया जाता है।
No comments:
Post a Comment