التلخيص التلقائي للنصوص والمستندات Text Summarization

كتبت بواسطة Ahmad Ali | بتاريخ الثلاثاء 25 آب 2020


ماذا يعني التلخيص التلقائي للنصوص؟


التلخيص التلقائي للنصوص او المستندات يعني ان تقوم الخوارزمية بتقديم ملخص قصير يحوي معلومات كافية ومهمة وشاملة عن نص طويل. 

يوجد عدة طرق لإنجاز عملية التلخيص التلقائي للمستندات


ملخص Extractive

في هذه الطريقة يتم اختيار الجمل والعبارات المهمة في مستند ما وضعها ضمن مستند جديد أقصر عادة من المستند الأصلي ضمن تسلسل منطقي ومفهوم. 

على سبيل المثال ليكن لدينا النص التالي كما في الشكل الذي يحتوي على ٤ جمل، عند تطبيق خوارزمية تلخيص المستندات عليه نحصل على ملخص يحوي جملتين فقط قامت الخوارزمية باختيارهم لاحتوائها على أهم المعلومات الأساسية في المستند الأصلي:


ملخص Abstractive

وهذا النوع من تلخيص المستندات تلقائيا شيق نوعا ما، حيث يتم توليد جمل جديدة كلياً من النص الأصلي على عكس الطريقة السابقة extractive التي يتم فيها استخراج جمل توجد أصلا في النص. حيث يتم في هذه الطريقة توليد جمل جديدة  من الوارد ألا توجد في النص الأصلي نهائيا, مثلا لنفرض وجود نص يحوي أربع جمل كما يلي، يتم توليد جملة جديدة كليا تلخص النص الأصلي:


كيف تعمل خوارزميات التلخيص التلقائي للمستندات؟

خوارزميات التلخيص التلقائي للمستندات هي خوارزميات بإشراف Supervised Machine Learning حيث يتم تصميم نموذج لتلخيص المستندات كمايلي:

  • اختيار طريقة او خوارزمية تقوم بقياس كمية المعلومات التي تمثلها كل جملة في النص، وغالبا ما يتم استخدام نظرية المعلومات في ذلك Information Theory.
  • جمع نص كبير يحوي جمل مشار إليها بشكل إيجابي اي ان هذه الجمل يجب اختيارها من هذا النص عند إجراء تلخيص  تلقائي له. 
  • لزيادة الدقة، يتم أيضا جمع جمل مشار إليها سلبيا لكي يستطيع النموذج الرياضي التمييز بين الجمل السيئة والجمل الجيدة.
  • بناء خوارزمية تصنيف ثنائية Binary Classifier لاستخلاص الجمل المهمة من النص.
  • بناء مجموعة من المزايا لكل جملة feature set  وقد تكون:
    • طول الجملة.
    • تردد تكرار الجملة في النص الأصلي.
    • أكثر الكلمات ورودا في الجملة.
    • عدد المحارف في الجملة.
    • الكيانات الواردة في الجملة Entities 
    • الخ...

نماذج Sequence-to-Sequence 

نماذج Seq2Seq في التعلم العميق يمكن تطبيقها على أي مشكلة تحوي معلومات متسلسلة مثل الكلام او الترجمة الآلية وغيرها، على سبيل المثال في الترجمة الآلية يكون الدخل جملة في اللغة المصدر ليكون الخرج ترجمتها في اللغة الهدف كما يلي:

في خوارزميات استخراج الكيانات Named Entity Recognition يكون الدخل عبارة عن جملة من الكلمات، ليكون الخرج عبارة عن كلمات مؤشر إليها تدل على كيان معين مثل تاريخ او مكان او شخص.


تستخدم هذه النماذج بكثرة في تلخيص المستندات كما في هذه الورقة البحثية من جامعة ستانفورد https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/reports/custom/15706464.pdf