التعرف على الكلام هو حقل فرعي من علوم الكمبيوتر واللغويات الحاسوبية يطور منهجيات وتقنيات تمكّن من التّعرف على اللغة المنطوقة وتحويلها إلى نص بواسطة أجهزة الكمبيوتر. يُعرف أيضًا باسم التعرف التلقائي على الكلام (ASR) أو التعرف على الكلام على الكمبيوتر أو تحويل الكلام إلى نص (STT). يدمج هذا الفرع المعرفة والبحث في مجالات علوم الكمبيوتر واللغويات وهندسة الكمبيوتر.
تتطلب بعض أنظمة التعرف على الكلام “تدريبًا” (يُطلق عليه أيضًا “التسجيل”) حيث يقرأ المتحدث الفردي نصًا أو مفردات منفصلة في النظام. يحلّل النّظام صوت الشخص المحدد ويستخدمه لضبط التّعرف على كلام ذلك الشخص ، مما يؤدي إلى زيادة الدقة. تسمى الأنظمة التي لا تستخدم التدريب أنظمة “مستقلة عن المتحدث”. الأنظمة التي تستخدم التدريب تسمى “تعتمد على المتحدث”.
تتضمن تطبيقات التّعرف على الكلام واجهات المستخدم الصوتية مثل الاتصال الصوتي (على سبيل المثال “الاتصال بالمنزل”) ، وتوجيه المكالمات (على سبيل المثال ، “أرغب في إجراء مكالمة جماعية”) ، والتحكم في الأجهزة المنزليّة ، والبحث عن الكلمات الرئيسية (على سبيل المثال ، العثور على بودكاست حيث توجد كلمات معينة تم التحدث بها) ، وإدخال بيانات بسيط (على سبيل المثال ، إدخال رقم بطاقة ائتمان) ، وإعداد مستندات منظمة (مثل تقرير الأشعة) ، وتحديد خصائص المتحدث ، معالجة الكلام إلى نص (على سبيل المثال ، معالجات الكلمات أو رسائل البريد الإلكتروني) ، أو التحكّم بالطائرات (يُطلق عليها عادةً إدخال صوتي مباشر).
يشير مصطلح التعرف على الصوت أو تعريف المتحدث إلى تحديد المتحدث ، وليس ما يقوله. يمكن أن يؤدي التعرف على المتحدث إلى تبسيط مهمة ترجمة الكلام في الأنظمة التي تم تدريبها على صوت شخص معين أو يمكن استخدامه للمصادقة أو التحقق من هوية المتحدث كجزء من عملية أمنية.
من منظور التكنولوجيا ، فإن التّعرف على الكلام له تاريخ طويل مع موجات عديدة من الابتكارات الكبرى. في الآونة الأخيرة ، استفاد المجال من التقدم في التعلم العميق والبيانات الضخمة. يتضح التقدم ليس فقط من خلال زيادة الأوراق الأكاديمية المنشورة في هذا المجال ، ولكن الأهم من ذلك من خلال اعتماد الصناعة العالمية لمجموعة متنوعة من أساليب التعلم العميق في تصميم ونشر أنظمة التعرف على الكلام.
تطوير نماذج للتعرّف على الكلام
تعد كل من النمذجة الصوتيّة والنمذجة اللغويّة جزءًا مهمًا من خوارزميات التعرف على الكلام الحديثة القائمة على الإحصاء. تُستخدم نماذج ماركوف المخفية (HMMs) على نطاق واسع في العديد من الأنظمة. تُستخدم نمذجة اللّغة أيضًا في العديد من تطبيقات معالجة اللغة الطبيعية الأخرى مثل تصنيف المستندات أو الترجمة الآلية الإحصائية.
نماذج ماركوف المخفيّة
تعتمد أنظمة التعرف على الكلام الحديثة للأغراض العامة على نماذج ماركوف المخفية. هذه نماذج إحصائية تنتج سلسلة من الرموز أو الكميات. يتم استخدام HMMs في التعرف على الكلام لأنه يمكن عرض إشارة الكلام كإشارة ثابتة متعددة التعريف أو إشارة ثابتة لوقت قصير. في نطاق زمني قصير (على سبيل المثال ، 10 مللي ثانية) ، يمكن تقريب الكلام كعملية ثابتة. يمكن اعتبار الكلام كنموذج ماركوف للعديد من الأغراض العشوائية.
سبب آخر لشعبية HMMs هو أنه يمكن تدريبها تلقائيًا وهي بسيطة وسهلة الاستخدام من الناحية الحسابية. في التعرف على الكلام ، سينتج نموذج ماركوف المخفي سلسلة من المتجهات ذات القيمة الحقيقية ذات البعد n (مع كون n عددًا صحيحًا صغيرًا ، مثل 10) ، ويخرج واحدًا من هذه النواقل كل 10 مللي ثانية. ستتألف المتجهات من معاملات cepstral ، والتي يتم الحصول عليها عن طريق أخذ تحويل فورييه لفترة قصيرة من الكلام وتزيين الطيف باستخدام تحويل جيب التمام ، ثم أخذ المعاملات الأولى (الأكثر أهمية). سيميل نموذج ماركوف المخفي إلى أن يحتوي في كل حالة على توزيع إحصائي يكون عبارة عن مزيج من التغاير القطري المتغاير Gaussians ، والذي سيعطي احتمالية لكل متجه مرصود. كل كلمة ، أو (بالنسبة لأنظمة التعرف على الكلام الأكثر عمومية) ، كل صوت ، سيكون لها توزيع إخراج مختلف ؛ يتم إنشاء نموذج ماركوف المخفي لسلسلة من الكلمات أو الصوتيات من خلال ربط نماذج ماركوف الفردية المخفية المدربة للكلمات والصوتيات المنفصلة.
الموصوفة أعلاه هي العناصر الأساسية للنهج الأكثر شيوعًا القائم على HMM للتعرف على الكلام. تستخدم أنظمة التعرف على الكلام الحديثة مجموعات مختلفة من عدد من التقنيات القياسية من أجل تحسين النتائج على النهج الأساسي الموصوف أعلاه.
قد يحتاج نظام المفردات الكبيرة النموذجي إلى تبعية السياق للفونيمات (لذا فإن الصوتيات ذات السياق الأيمن والأيسر المختلف لها إدراك مختلف مثل حالات HMM) ؛ يستخدم تطبيع cepstral للتطبيع لظروف متكلم وتسجيل مختلف ؛ لمزيد من تطبيع السماعات ، قد تستخدم تطبيع طول المسالك الصوتية (VTLN) للتطبيع بين الذكور والإناث وأقصى احتمالية للانحدار الخطي (MLLR) لمزيد من التكيف العام للمتحدث. سيكون للميزات ما يسمى بمعاملات دلتا ودلتا دلتا لالتقاط ديناميكيات الكلام ، بالإضافة إلى ذلك ، قد تستخدم تحليل التمايز الخطي المتغاير (HLDA) ؛ أو قد تتخطى معاملات دلتا ودلتا دلتا وتستخدم الربط والإسقاط المستند إلى LDA متبوعًا ربما بتحليل التمييز الخطي غير المتجانسة أو تحويل التباين المشترك شبه المقيد (المعروف أيضًا باسم التحويل الخطي الأقصى للاحتمالية أو MLLT). تستخدم العديد من الأنظمة ما يسمى بتقنيات التدريب التمييزي التي تستغني عن نهج إحصائي بحت لتقدير معلمة HMM وبدلاً من ذلك تعمل على تحسين بعض التدابير المتعلقة بالتصنيف لبيانات التدريب. ومن الأمثلة على ذلك الحد الأقصى للمعلومات المتبادلة (MMI) ، والحد الأدنى لخطأ التصنيف (MCE) ، والحد الأدنى لخطأ الهاتف (MPE).
من المحتمل أن يستخدم فك تشفير الكلام (المصطلح الذي يشير إلى ما يحدث عندما يتم تقديم النظام بكلمة جديدة ويجب أن يحسب الجملة المصدر الأكثر احتمالاً) خوارزمية Viterbi للعثور على أفضل مسار ، وهنا يوجد خيار بين إنشاء دمج نموذج ماركوف المخفي ، والذي يتضمن معلومات نموذج الصوت واللغة والجمع بينها بشكل ثابت مسبقًا (نهج محول الحالة المحدودة ، أو FST ،).
يتمثل أحد التحسينات المحتملة لفك التشفير في الاحتفاظ بمجموعة من المرشحين الجيدين بدلاً من مجرد الاحتفاظ بأفضل مرشح ، واستخدام وظيفة تسجيل أفضل (إعادة تسجيل) لتقييم هؤلاء المرشحين الجيدين حتى نتمكن من اختيار الأفضل وفقًا لهذه النتيجة المحسنة . يمكن الاحتفاظ بمجموعة المرشحين إما كقائمة (نهج قائمة أفضل N) أو كمجموعة فرعية من النماذج (شبكة شعرية). عادةً ما يتم إجراء إعادة التصنيف من خلال محاولة تقليل مخاطر بايز (أو تقريبها): بدلاً من أخذ الجملة المصدر بأقصى احتمالية ، نحاول أن نأخذ الجملة التي تقلل من توقع دالة خسارة معينة فيما يتعلق بـ جميع التدوينات الممكنة (على سبيل المثال ، نأخذ الجملة التي تقلل متوسط المسافة إلى الجمل المحتملة الأخرى المرجحة باحتمالية تقديرها).
عادة ما تكون وظيفة الخسارة هي مسافة Levenshtein ، على الرغم من أنها يمكن أن تكون مسافات مختلفة لمهام محددة ؛ مجموعة النسخ الممكنة ، بالطبع ، مجردة للحفاظ على إمكانية التتبع. تم ابتكار خوارزميات فعالة لإعادة درجات المشابك الممثلة كمحولات طاقة منتهية موزونة بمسافات تحرير تمثل نفسها كمحول طاقة محدود الحالة للتحقق من افتراضات معينة.
التعرف على الكلام المستند إلى التواء الوقت الديناميكي (DTW)
تزييف الوقت الديناميكي هو نهج تم استخدامه تاريخيًا للتعرف على الكلام ولكن تم استبداله الآن إلى حد كبير بالنهج الأكثر نجاحًا المستند إلى HMM.
يعد تزييف الوقت الديناميكي خوارزمية لقياس التشابه بين تسلسلين قد يختلفان في الوقت أو السرعة. على سبيل المثال ، يمكن الكشف عن أوجه التشابه في أنماط المشي ، حتى إذا كان الشخص في أحد مقاطع الفيديو يسير ببطء وإذا كان في مقطع آخر يمشي بسرعة أكبر ، أو حتى إذا كان هناك تسارع وتباطؤ أثناء عملية ملاحظة واحدة. تم تطبيق DTW على الفيديو والصوت والرسومات – في الواقع ، يمكن تحليل أي بيانات يمكن تحويلها إلى تمثيل خطي باستخدام DTW.
ومن التطبيقات المعروفة التعرف التلقائي على الكلام للتعامل مع سرعات التحدث المختلفة. بشكل عام ، إنها طريقة تسمح للكمبيوتر بالعثور على التطابق الأمثل بين تسلسلين معينين (على سبيل المثال ، السلاسل الزمنية) مع قيود معينة. وهذا يعني أن التسلسلات “ملتوية” بشكل غير خطي لتتناسب مع بعضها البعض. غالبًا ما تُستخدم طريقة محاذاة التسلسل هذه في سياق نماذج ماركوف المخفية.
المراجع
P. Nguyen (2010). “Automatic classification of speaker characteristics”. International Conference on Communications and Electronics 2010. pp. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID 13482115.^