تحليل البيانات: مفاهيم ومنهجيات

تحليل البيانات: مفاهيم ومنهجيات كتبت بواسطة Murad Daryousse

أدى التقدم الحاصل في تكنولوجيا معالحة البيانات، وتخزينها، ونقلها، جنباً إلى جنب مع البرمجيات المتطورة والذكية التي تتعامل مع هذه البيانات، إلى انخفاض الكلف وازدياد السعات (من حيث تخزين ومعالجة البيانات). نتج عن ذلك ازدياد متسارع في حجوم وتنوع البيانات المولّدة بصيغ رقمية يوماً عن يوم، والذي أطلق عليه البعض “انفجار البيانات”.

بالرغم من الانطباع الذي يُمكن أن يُعطيه هذا المصطلح -بأننا نغرق في البيانات- إلا أنه يوجد العديد من الفوائد والفرص الكامنة في الوصول إلى كل هذه البيانات. توفّر هذه الحجوم والتنويعات الكبيرة للبيانات المتاحة اليوم مصادر غنيّة للمعلومات التي يُمكن تحويلها إلى معارف جديدة، ومفيدة، وقابلة للفهم من قبل الإنسان. بالتالي، يوجد اهتمام متزايد في استكشاف هذه البيانات من أجل استخلاص هذه المعارف، واستخدامها لدعم عمليات اتخاذ القرار في العديد من المجالات المختلفة.

يُشكل تحليل البيانات لاستخلاص معارف مفيدة منها الموضوع الذي يُعنى به مجال دراسة حيوي يُدعى تحليلات البيانات (Data Analytics).

تحليل البيانات

يوجد في الحقيقة العديد من التعاريف لتحليل البيانات التي يُمكن أن نراها في الأدبيات. سنقتبس التعريف التالي باعتباره يشمل معظم التعاريف الأخرى.

تحليل البيانات: هو العلم الذي يُعنى بتحليل البيانات الخام لاستخلاص معرفة (أو أنماط) مفيدة منها.

تتضمن هذه العملية أيضاً تجميع البيانات، وتنظيمها، وتهيئتها، وتحويلها، ونمذجتها، وتفسيرها. كما يتطلب مجال تحليل البيانات معارف ومهارات من مجالات مختلفة مثل: الإحصاء (بشكل خاص فكرة تعميم المعرفة من البيانات أو Inductive Learning)، التعلّم الآلي (Machine Learning)، التنقيب في المعطيات (Data Mining)، البرمجة … إلخ.

يمكن لأي منا عند التعامل مع تحليل البيانات -لأغراض دراسية أو عملية- ملاحظة وجود مجموعة من المفاهيم والمصطلحات التي غالباً لا يتم التمييز بينها بشكل واضح وصريح، بل تستخدم أحياناً كمرادفات مثل: علم البيانات (Data Science)، البيانات الكبيرة (Big Data)، هندسة البيانات (Data Engineering)، استكشاف المعرفة، (Knowledge Discovery) … إلخ. لذلك نرى من الضروري التمييز بينها بشكل صحيح حتى نتمكن من استخدامها وتوظيفها بمكانها المناسب وبالشكل الأمثل؛ مع الإشارة إلى أن التعريف السابق يغطي جميع هذه المصطلحات وغيرها مما يتعلق باستخلاص المعرفة من البيانات.

البيانات الكبيرة وعلم البيانات

لا يوجد أيضاً تعريف وحيد لما يشير إليه مصطلح البيانات الكبيرة (الذي ظهر نتيجة الانفجار في البيانات)، لكن يُمكن القول أنه مجال يُعنى بدراسة الطرائق الناجعة لمعالجة، وتخزين، ونقل مجموعات البيانات التي تعتبر كبيرة ومعقدة جداً بشكل لا يمكن التعامل معها وإدارتها باستخدام تقنيات معالجة البيانات التقليدية.

يتم تمييز البيانات الكبيرة بشكل أساسي وفقاً لثلاث خصائص أو محاور تُعرف بمصطلح “Three Vs” كما هو موضّح في الشكل 1، وهي: الحجم (Volume)، التنوع (Variety)، السرعة (Velocity). أضيف لاحقاً عدة Vs لها (مثل: Value، Veracity … etc) لكن أول ثلاث Vs هي الأكثر شيوعاً واستخداماً لتمييز البيانات الكبيرة.

الشكل 1: خصائص البيانات الكبيرة (Three Vs).

  • الحجم (Volume): يُعنى هذا البعد بكيفية تخزين الحجوم الضخمة للبيانات الكبيرة؛
  • التنوع (Variety): يُعنى هذا البعد بكيفية وضع بيانات من عدة مصادر مختلفة وبصيغ مختلفة وإدارتها ومعالجتها معاً؛
  • السرعة (Velocity): يُعنى هذا البعد بكيفية التعامل مع البيانات التي تصل بسرعات عالية وفق ما يعرف بدفق البيانات (Data Streams).

تمّ مؤخراً تطوير العديد من التقنيات والأدوات الخاصة بمعالجة البيانات الكبيرة وتخزينها، أهمها: النموذج البرمجي Map Reduce، ونظام الملفات الموزع HDFS الخاص بنظام تخزين المعطيات الكبيرة Hadoop، كذلك محركات مُعالجة البيانات الكبيرة Spark، Storm.

نُلاحظ إذاً أن مجال البيانات الكبيرة يُعنى أكثر بالتكنولوجيا اللازمة لعنونة التحديات التي تفرضها خصائص هذه البيانات. وذلك عبر تأمين بيئة حوسبة مناسبة، ليس فقط لتحليل البيانات، وإنما لجميع عمليات معالجة البيانات بشكل عام.

بالمقابل، يوجد مصطلح آخر وهو “علم البيانات”، يُعنى بإنشاء نماذج قادرة على استخلاص أنماط من بيانات مُعقدة واستخدام هذه النماذج لحل مسائل حقيقية ضمن حياتنا اليومية. يستخلص علم البيانات معرفة جديدة ومفيدة من البيانات، بدعم من التكنولوجيا المناسبة. بالتالي، توفر البيانات الكبيرة الدعم المناسب لتجميع وإدارة البيانات، بينما يقوم علم البيانات بتطبيق تقنيات على هذه البيانات من أجل اكتشاف معارف جديدة ومفيدة منها. بمعنى آخر، البيانات الكبيرة تجمع وعلم البيانات يكتشف.

البيانات الصغيرة

على عكس تكنولوجيا البيانات الكبيرة والطرائق الخاصة بها، يوجد توجه نحو تحليل موضوعي أكثر تخصيصاً لمجموعات صغيرة من البيانات تدعى “البيانات الصغيرة” (Small Data). فالبيانات الصغيرة هي مجموعة بيانات يسمح حجمها وصيغتها بأن تُعالج وتُحلل من قبل شخص أو مجموعة صغيرة من الأشخاص.

بالتالي، عوضاً عن تجميع البيانات من مصادر مختلفة، وبصيغ مختلفة، وبمعدلات توليد متسارعة وما يتطلبه ذلك من أدوات وتقنيات تخزين ومعالجة كبيرة؛ تفضل البيانات الصغيرة تجزئة المشكلة المراد حلّها إى مجموعات أصغر من المسائل الجزئية، بحيث يمكن تحليلها من قبل أشخاص مختلفين أو مجموعات صغيرة بشكل موزّع ومتكامل.

يقوم الناس باستمرار بتوليد البيانات الصغيرة كنتيجة لنشاطاتهم اليومية، التي يمكن أن تكون تصفح للوب، أو التفاعل على وسائل التواصل الاجتماعي، أو شراء منتج ما من متجر إلكتروني … ألخ. عندما يتم تجميع هذه البيانات الصغيرة ليتم تخزينها ومعالجتها في مراكز بيانات ضخمة تصبح “بيانات كبيرة”.

يختلف أيضاً نوع المعرفة التي يتم البحث عنها في البيانات الكبيرة والبيانات الصغيرة، حيث يتم في الأولى البحث عن ارتباطات (Correlations) بينما يتم في الثانية البحث عن علاقات سببية (Causal Relations). فبينما تُقدم أدوات البيانات الكبيرة الإمكانية للشركات من أجل فهم زبائنها، تحاول البيانات الصغيرة أن تساعد الزبائن بفهم أنفسهم. بمعنى آخر، تُعنى البيانات الكبيرة بالزبائن، والمنتجات، والخدمات؛ بينما تُعنى البيانات الصغيرة بالأفراد الذين يولّدون البيانات.

أنواع تحليل البيانات

يمكن تقسيم عمليات وطرائق تحليل البيانات إلى نوعين رئيسين هما:

  • التحليلات التوصيفية (Descriptive Analytics): تهدف إلى تلخيص أو تكثيف البيانات من أجل استخلاص أنماط منها.
  • التحليلات التوقعية (Predictive Analytics): تهدف إلى استخلاص نماذج من البيانات بحيث يُمكن استخدامها للتوقعات المستقبلية للبيانات الجديدة.

نحصل في مهام التحليل التوصيفي على النتيجة الخاصة بطريقة أو تقنية مُعينة بشكل مباشر من خلال تطبيق خوارزمية مُعينة على البيانات. يُمكن أن تكون هذه النتيجة عبارة عن قيمة إحصائية -مثل المتوسط الحسابي- أو رسمة تعبر عن البيانات المدروسة، أو مجموعة من العناقيد التي تتضمن عناصر البيانات المتشابهة … إلخ.

تتمحور مهام التحليل التوقعي حول استنباط نماذج من البيانات، حيث يعرّف النموذج ضمن سياق تحليل البيانات على أنه تعميم يتم الحصول عليه من البيانات بحيث يمكن استخدامه بعد ذلك لتوليد توقعات حول بيانات جديدة لم يتم مشاهدتها سابقاً.

يوضح الشكل 2 مثالاً عن خوارزمية تعبر عن طريقة حساب المتوسط الحسابي لأعمار مجموعة من الأشخاص الموجودين في قائمة الاتصال الخاصة بنا، وذلك من خلال عمر كل منهم. تعتبر هذه الطريقة تحليلاً توصيفياً لبيانات هؤلاء الأشخاص.

الشكل 2: خوارزمية حساب المتوسط الحسابي لقائمة اتصال.

تُعد الخوارزمية تعبيراً عن طريقة ما (Method) بلغة قريبة من اللغة التي يفهمها الحاسب، ولكن يُمكن أن التكون الطريقة مباشرة بحيث أنه -في معظم الحالات- يُمكننا التعبير عنها كصيغة رياضية عوضاً عن التعبير عنها كخوارزمية كما هو موضّح في المعادلة 1.

المعادلة 1: صيغة حساب المتوسط الحسابي.

بالمقابل، يُمكن للخوارزمية أن تعبر أيضاً عن طرائق توقعية، وهي في هذه الحالة توصّف كيفية توليد نموذج ما من البيانات. فإذا أردنا على سبيل المثال تطبيق خوارزمية لاستنباط أشجار القرار (Decision Trees) من أجل تقديم تفسير حول من هم الأشخاص -من بين قائمة الاتصال الخاصة بنا- الذين يمكن أن تكون صحبتهم جيّدة، نحصل على نموذج يُدعى شجرة القرار، كما هو موضّح في الشكل 3.

الشكل 3: نموذج توقعي لتصنيف شخص كصحبة جيدة أو سيئة.

نُلاحظ من الشكل 3 أن الأشخاص الذين أعمارهم أكبر من 38 سنة هم عادةً صحبة جيّدة أكثر من الأشخاص الذين أعمارهم 38 سنة أو أقل، حيث أنه أكثر من 80% من الأشخاص بعمر 38 أو أقل هم صحبة سيئة، بينما أكثر من 80% من الأشخاص الذين تتجاوز أعمارهم 38 سنة هم صحبة جيّدة. بالتالي، يُمكن استخدام هذا النموذج لتوقع (تصنيف) فيما إذا كانت جهة اتصال جديدة صحبة جيّدة أم سيئة. حيث يكفي معرفة عمر جهة الاتصال الجديدة هذه. تجدر الإشارة إلى أن المثال السابق غير واقعي ولا يعبر أبداً عن حالة حقيقية وإنما تم ذكره لأغراض التوضيح فقط.

منهجيات تحليل البيانات

تحتاج المشاريع المتعلقة بتحليل البيانات -كأي مشاريع في المجالات الأخرى- إلى منهجيات (Methodologies) تمكننا من التخطيط لهذه المشاريع وتحقيقها. سنطرق إلى منهجيتين إحداهما من المجال الأكاديمي وهي “Knowledge Discovery in Databases or KDD”، والأخرى من المجال الصناعي وهي “CRoss-Industry Standard Process for Data Mining or CRISP-DM”.

منهجية KDD

تهدف منهجية KDD إلى أن تكون منهجية قادرة على التعامل مع جميع الإجراءات اللازمة لاستخلاص المعرفة من البيانات. حيث تقترح صيرورة مكونة من تسع خطوات متسلسلة، كما هو موضّح في الشكل 4. تجدر الإشارة إلى أنه بالرغم من التسلسل الذي تفرضه منهجية KDD، إلا أنها تسمح بالعودة إلى أي خطوة سابقة من الخطوة الحالية لإعادة القيام ببعض المهام التي تقتضيها هذه المنهجية.

الشكل 4: منهجية KDD.
  1. فهم مجال التطبيق والأهداف: ما هو متوقع ضمن مصطلحات مجال التطبيق؟ ما هي خصائص المشكلة قيد الدراسة ومُحدداتها؟ حيث أنه من المطلوب تكوين فهم جيد لمجال التطبيق؛
  2. اختيار أو إنشاء مجموعة البيانات المستهدفة: ماهي البيانات التي نحتاجها لعنونة المشكلة؟ أي واصفات يجب تضمينها لهذه البيانات؟ كيف سيتم تجميع هذه البيانات ووضعها بالصيغة المناسبة؟ حالما يتم فهم مجال التطبيق، يجب أن يستطيع مُحلل البيانات تحديد البيانات المطلوبة لإنجاز المشروع؛
  3. تنظيف وتهيئة البيانات: كيف يجب التعامل مع القيم المفقودة و/أو القيم الشاذّة في البيانات؟ ماهي أنماط البيانات التي يجب اختيارها لكل واصفة؟ من الضروري وضع البيانات بصيغة مُحددة ومُهيكلة (مثل صيغة جدولية)؛
  4. تقليص أبعاد البيانات: ماهي الخصائص التي يجب تضمينها لتمثيل البيانات؟ وما هي الخصائص التي يجب حذفها أو تجاهلها؟ هل يجب إضافة معلومات أخرى، مثل إضافة اليوم للتواريخ؟ تُعد هذه الأمور ضرورية لبعض المهام، حيث يجب إزالة الواصفات الغير موائمة من البيانات المدروسة؛
  5. اختيار طريقة أو وظيفة التنقيب في المعطيات: ما هو نوع الطرائق التي يجب استخدامها؟ يوجد بشكل عام أربعة أنواع من الطرائق: التلخيص، العنقدة، التصنيف، توقع القيمة (Regression). تعتبر أول طريقتين من نوع التحليل التوصيفي للبيانات، بينما تعتبر آخر طريقتين من نوع التحليل التوقعي؛
  6. اختيار خوارزميات التنقيب في المعطيات: ماهي الخوارزميات المناسبة التي يجب استخدامها مع الأخذ بعين الاعتبار خصائص ومحددات المشكلة المراد حلّها وخصائص البيانات المتاحة؟ ماهي القيم التي يجب إسنادها للوسائط الفائقة (Hyper-parameters) الخاصة بالطريقة أو النموذج المستخدم؟ حيث أنه من المتوقع اختيار خوارزمية محددة أو مجموعة محددة من الخوارزميات؛
  7. التنقيب في المعطيات: البحث عن أنماط ضمن مجال الاهتمام وفق صيغة تمثيلة محددة أو مجموعة من الصيغ التمثيلية الموافقة للطريقة أو الطرائق المستخدمة؛
  8. تفسير النتائج: مالذي تعنيه النتائج التي تم الحصول عليها من عملية التنقيب؟ ما هي الفوائد التي تقتضيها بالنسبة للمستخدم النهائي؟ يتمثل هدف هذه الخطوة باختيار النتئج وتقييمها ضمن مصطلحات مجال التطبيق. من الشائع العودة إلى خطوات سابقة في حال كانت النتائج ليست بالفائدة أو الجودة المتوقعة؛
  9. استخدام المعرفة المكتشفة: كيف يُمكن تطبيق المعرفة الجديدة عملياً؟ كيف يُمكن مكالمتها مع الأنظمة الحالية؟ يقتضي ذلك مكاملة المعرفة الجديدة المستخلصة مع الأنظمة العملياتية أو أنظمة إعداد التقارير.

منهجية CRISP-DM

تتألف منهجية CRISP-DM من ست خطوات أو مراحل، وهي -كما منهجية KDD- تستخدم إطار عمل مستلسل بشكل غير صارم (يُمكن العودة لخطوات سابقة).

بالرغم من المراحل الست التي تتألف منها هذه المنهجية إلّا أنه يُنظر إليها كعملية دائمة تستخدم خلال دورة حياة شركة ما وفق تكرارات متعاقبة، كما هو موضّح في الشكل 5.

الشكل 5: منهجية CRISP-DM.

  1. فهم مجال العمل: وذلك من أجل القدرة على تعريف المشكلة من منظور مجال العمل، والقدرة على ترجمة مثل مشاكل العمل هذه إلى مسائل تحليل البيانات؛
  2. فهم البيانات: يتضمن ذلك تجميع البيانات اللازمة وتلخيصهم أو إظهارهم بشكل مبدئي من أجل الحصول على التبصرات الأولية، بشكل خاص فيما يتعلق بمسائل جودة هذه البيانات مثل القيم المفقودة والشاذة؛
  3. تهيئة البيانات: يتضمن ذلك تهيئة البيانات لتصبح بصيغة يُمكن استخدامها من قبل أدوات النمذجة، حيث تشمل عمليات: تحويل البيانات، هندسة الخصائص أو الميزات الخاصة بالبيانات، إزالة الشذوذ، تعبئة القيم المفقودة وإزالة البيانات الغير كاملة؛
  4. النمذجة: يوجد عادة عدة طرائق لحل نفس مسألة تحليل البيانات، يكون لكل منها غالباً متطلبات بيانات خاصة. يقتضي ذلك أنه ربما نكون بحاجة إلى عمليات تهيئة إضافية خاصة بكل طريقة، بالتالي، من الضروري في مثل هذه الحالات العودة إلى الخطوة السابقة. كما تتضمن مرحلة النمذجة ضبط قيم الوسائط الفائقة الخاصة بكل طريقة أو نموذج من الطرائق المُختارة؛
  5. التقييم: حل المسألة من منظور تحليل البيانات لا يعتبر نهاية العملية، وإنما من الضروري ضمن هذه المرحلة فهم كيف أن يمكن للحل الذي تم التوصل أن يكون ذا معنى من منظور مجال العمل؛ بعبارة أخرى، يجب تقييم فيما إذا كان الحل يلبي متطلبات العمل أم لا؛
  6. تنصيب أو نشر الحل: تهدف هذه المرحلة إلى مكاملة الحل الذي تم التوصل إليه ضمن صيرورة العمل. يقتضي ذلك عادةً مكاملة الحل مع أدوات دعم اتخاذ القرار.

خاتمة

قدمنا في هذا المقال شرح لمجال تحليل البيانات وعلاقته بمفاهيم ذات صلة مثل: البيانات الكبيرة، علم البيانات، البيانات الصغيرة. كما قمنا بشرح الأنواع الرئيسية التي تُصنف وفقها طرائق تحليل البيانات، كذلك تم شرح أهم المنهجيات المتبعة لتخطيط المشاريع وتحقيقها ضمن هذا المجال. سنقدم في مقالات لاحقة شرح مفصل ومخصص أكثر عن طرائق تحليل البيانات بأنواعها المختلفة (التوصيفية والتوقعية) والغاية من كل منها.