توليد الكلام باستخدام لواقط كهربائية لحركة عضلات الوجه باستخدام تقنية التعلم العميق في الذكاء الصنعي
منذ بدء ثورة التعلم العميق Deep Learning التي تزامنت مع تطورات كبيرة في تقنيات المعالجة الرسومية GPU منذ ٢٠١٣ حتى اليوم، لا يمر نسخة من المؤتمرات المتعلقة بمعالجة اللغات الطبيعية NLP حتى نُبهر بأفكار وتطبيقات جديدة تثبت يوماً بعد يوم أنه لا حدود للعلم، وهدف العلم الأول والأخير هو خدمة البشرية. هذه الحقيقة تمنحني سعادة لا توصف بانني قمت باختيار هذا المجال في اكمال دراستي في برنامج الدكتوراه في معهد اللغويات التطبيقية في جامعة تشارلز في براغ.
قبل البدء بالحديث عن آخر الأبحاث التي أبهرتني في مؤتمر طرائق تجريبية في معالجة اللغات الطبيعية، أنصح بشدة الإطلاع بشكل دوري على موقع رابطة اللغويات الحاسوبية ACL ومتابعة أخر الأبحاث وخصوصا تلك التي تحصل على Best Paper Award.
توليد صوت رقمي من إشارات كهربائية لعضلات الوجه
استطاع باحثون من جامعة كاليفورنيا في بركلي UC Berkeley تصميم نموذج رياضي باستخدام الذكاء الصنعي تم تدريبه على كلام صامت (أي أنك تقوم بتحريك شفاهك وفمك وكأنك تتحدث ولكن بدون اصدار اي صوت) ليجمع حركات العضلات والحنجرة.
الكلام الصامت يتم التعرف عليه باستخدام التخطيط الكهربائي للعضلات EMG بعد استخدام لواقط كهربائية على الوجه والحنجرة. النموذج المقترح يركز على توليد أصوات رقمية وتوقّع الكلمات التي يحاول الناطق قولها.
يعتقد المطورون أن هذا النموذج المقدّم سيمّكن عدد كبير من الناس حول العالم الذين لا يستطيعون أنتاج صوت لسبب مرضي من تحسين تواصلهم مع البيئة المحيطة من جديد .
الأصوات الرقمية المولدة من حديث صامت لها تطبيقات مختلفة وستساعد على تحسين حياة الملايين حول العالم.
على سبيل المثال تستطيع باستخدام هذا النموذج تطوير جهاز يقوم بتوليد إشارة الى سماعات او ميكروفون بلوتوث ليستطيع هؤلاء الناس النطق من جديد حتى اذا اختارو يستطيعون اجراء مكالمة على هاتف ما بدون ان يُسمع صوتهم من المحيط بهم.
وهنا يظهر تطبيق أخر لهذا النموذج، حيث يمكنك باستخدام هكذا جهاز أن تجري مكالمات او تتواصل بشكل رقمي ضمن وسط عالي الضجيج حيث لا يمكنك بالحالة الطبيعية ان تفعل ذلك.
كمثال اخر على قدرة الذكاء الصنعي على مساعدة الأشخاص الذين لديهم مشاكل بالنطق او السمع هو تطبيق Lip Reading AI الذي يستطيع توليد الكلام من حركات الشفاه وتحويله إلى نص أو أي شكل اخر حسب حالة الاستخدام, باستخدام هكذا نموذج، أصبح يمكن لفاقدي السمع التواصل مع المحيط مرة أخرى عبر تحويل كلام اي شخص إلى نص.
ماهي البيانات التدريبية التي تم استخدامها لبناء النموذج الذكي؟
قام المؤلفون بجمع بيانات على شكل إشارات EMG وتم ربطها مع الزمن بتسجيل صوتي لشخص يتحدث لحوالي عشرين ساعة من الكلام، حيث تخبرنا البيانات الإشارات الكهربائية التي سيتم توليدها في عضلات الوجه والحنجرة عند نطق مقطع صوتي ما.
لضمان الدقة في جمع البيانات قام المؤلفون بتوليد نسختي اشارات كهربائية من كل مقطع صوتي كما موضح في الصورة في الأسفل، في النسخة الأولى على اليمين تم تسجيل الإشارات عند الكلام الصوتي (اي توليد صوت) اما في النسخة الثانية على يمين الصورة تم تسجيل الإشارات عند توليد كلام صامت.
الشكل في الأعلى يوضح مثال لإشارة كهربائية تم جمعها باستخدام لواقط كهربائية في عدة أماكن في الوجه (الحنجرة، الخد أعلى الفم، الخد أسفل الفم، وسط الفك، أعلى الخد، الخد من الخلف …) كما توضح الصورة التالية:
وانطلاقا من هذه البيانات تم تدريب شبكة عصبونية من نوع Bidirectional LSTM للتحويل بين النوعين من الإشارات (إشارة صوتية وإشارة كهربائية), يمكن النظر إلى طريقتهم بأنها شبيهة لنماذج الترجمة الألية حيث تقوم شبكة عصبونية بترجمة نص (او بالاحرى مجموعة من الأرقام حيث يتم تحويل النص إلى شعاع عالي الأبعاد) من اللغة المصدر إلى اللغة الوجهة.
بالتالي فأن النموذج (من الناحية البرمجية) المقدم لا يعتبر أهم ما قام به الباحثون وإنما مساهمتهم الفعالة تكمن في توليد هذه البيانات التدريبية واتاحتها للعموم.
لمزيد من التفاصيل التقنية تستطيع قراءة ورقة بحثية نشرها المؤلفون في مؤتمر EMNLP Empirical Methods in Natural Language Processing (٢).
الكود المصدري البيانات التدريبية لتوليد الكلام من حركات الوجه
قام المؤلفون بنشر البيانات التدريبية training data (٤) الكود المصدري الخاص بعملهم (٣) مما يسمح للجميع ببناء نموذج مشابه والبناء عليه في المستقبل.
المراجع:
[1] This New AI Model Changes Silence into Sound!
[2] Digital Voicing of Silent Speech
[3] Digital Voicing of Silent Speech Github Code
[4] Silent Speech EMG Dataset