مع كل هذا الضجيج حول التعلم الآلي في هذه الأيام يعتقد الكثيرون أن التعلم الآلي هو الجواب على جميع الأسئلة المتعلقة بالبيانات. وهذا مادفعنا لكتابة هذا المقال.
تستخدم اليوم اختبارات الإحصاء في الكثير من التطبيقات المتعلقة بمعالجة البيانات، وفي تطبيقات التعلم الألي أيضا يتم استخدام تقنيات ونماذج عرفها الإحصاء منذ عشرات السنين. ولكن متى يمكن استخدام النماذج الإحصائية ومتى يجب استخدام نماذج التعلم الآلي؟
التنبؤ مقابل اكتشاف البيانات
الفرق الأساسي بين التعلم الآلي وبين الإحصاء بشكل عام هو الهدف التي تحاول الوصول إليه أو المشكلة التي تحاول حلّها، تذّكر ذلك جيداً, إذا كان من الممكن حل المشكلة ببعض الأوامر في إكسل، فلماذا الدخول في تعقيدات التعلم الآلي؟
التعلم الآلي يعمل بشكل جيد عندما تريد الحصول على تنبؤات مستقبلية دقيقة قدر المستطاع. بينما النماذج الإحصائية تستخدم لاكتشاف العلاقات بين المتحولات في البيانات. هذا لا يعني أنه لا يمكن للنماذج الإحصائية التنبؤ بقيم مستقبلية، ولكن ليس بنفس الدقة التي تقدمها نماذج التعلم الآلي, نفس الشيء ينطبق على التعلم الآلي، تستطيع استخدام نماذج تعلم آلي لإيجاد علاقات بين البيانات بسهولة مثل نموذج لاسو او تطوير شبكة عصبونية ذكية, ولكن ثق بي، سيكون من الصعب جدا تفسير العلاقات بين المتحولات في هكذا نماذج.
التنبؤ بأحداث مستقبلية في التعلم الآلي
النظرة للمستقبل مقابل النظرة للماضي
هنا نتحدث عن فرق يشبه الاكتشاف والتنبؤ الذي تحدثنا عنه في الفقرة السابقة، عملية التنبؤ وضوحاً معنية بالنظر إلى المستقبل، هنا نقوم ببناء نموذج تعلم آلي باستخدام بيانات من الماضي للتنبؤ بماذا سيحدث في المستقبل، أي هل ستكون البيانات مشابهة؟ هل ستؤدي عوامل معينة إلى ظهور نتائج جديدة؟
على عكس ذلك، نستخدم النماذج الإحصائية لفهم بيانات من الماضي، مثل الوصول إلى معلومات كميّة حول كل متحول في البيانات وإيجاد علاقات بين متحولات مختلفة. هنا نستطيع أن نفترض أن البيانات التي رأيناها في الماضي يمكن أن تتكرر في المستقبل ولكن بالتأكيد هذه الفرضية تحوي الكثير من التفاؤل في بعض الحالات (تخيل بيانات متعلّقة بالاقتصاد والعوامل الكثيرة التي يمكن أن تحدث في المستقبل والتي ستؤدي إلى ظهور نماذج لم نر مثلها قط).
اكتشاف العلاقات بين المتحولات باستخادم نماذج إحصائية في SPSS
بينما نماذج التعلّم الآلي قوية جدا في التنبؤ في المستقبل على عكس النماذج الإحصائية, في الحقيقة إن لم نكن نهتم بماذ سيحدث في المستقبل، فيفضل عدم اللجوء إلى التعلم الآلي على الإطلاق والاكتفاء بنماذج إحصائية.
البيانات الكبيرة مقابل البيانات الصغيرة
نماذج التعلم الآلي شرهة للبيانات، فكي نستطيع الوصول إلى أداء مقبول في التعلم الآلي نحتاج إلى الكثير من البيانات. بينما تستطيع نماذج إحصائية تقديم نماذج عالية الدقة على بيانات صغيرة جدا [1].
في حالات نادرة يمكن لنماذج التعلم الآلي، وخصوصا نماذج الإنحدار الخطي [2] أن تقدم أداء جيد، ولكن في حالات مثل الشبكات العصبونية والغابات العشوائية [3] سيكون الأداء سيء عند التدريب على بيانات قليلة, وستحتاج إلى ربما ملايين الأمثلة لكي تحصل على نموذج جيّد الأداء.
الكثير، مقابل القليل من المتحوّلات
تمتلك نماذج التعلم الآلي قدرة قوية على اكتشاف المتحوّلات في البيانات التي تحوي معلومات مهمة ومتعلقة بما نحاول التنبؤ به (مايعرف بتابع الهدف) بالإضافة إلى التنبؤ بالمتحولات التي تعتبر غير مساعدة وفقط تجعل النموذج أكثر تعقيد، يعرف هذا في التعلم الآلي بهندسة المتحولات او المزايا Features Engineering ويتم استخدام نظرية المعلومات و الانتروبيا في ذلك [4].
النماذج الإحصائية بالمقابل لا تملك هذه القدرة على تطبيق هندسة المتحولات او المزايا لاستبعاد ماهو ضجيج والاحتفاظ بما هو مفيد.
الخلاصة
اذا كان لديك الكثير من البيانات، وتريد الوصول إلى دقة جيدة للتبنؤ بقيم مستقبلية، فعليك بنماذج التعلم الآلي، أما إذا كان هدفك الأساسي هو الحصول على تفسيرات لبيانات لديك ولا تكترث للتبنؤ فسوف تقدّم لك النماذج الإحصائية نتيجة مقبولة وسريعة.
المراجع
[1] Asymptotic Theory of Statistics and Probability
[2] Machine Learning 1: Linear Regression