ماهو علم البيانات Data Science ؟ وما هي المهارات اللازمة لتصبح عالم بيانات Data Scientist ؟

مقدمة

تزامن ظهور مصطلح علم البيانات مع النمو الكبير في حجم البيانات الغير مهيكلة بسبب نمو شبكة الأنترنت، وانتشار الأجهزة الذكية المتصلة طوال الوقت بها والتي تقوم بشكل شبه لحظي بتوليد حجم كبير من البيانات، تعتبر هذه المقالة التي تقوم بقرائتها الآن مثال عن البيانات الغير مهيكلة، أي أن النص الذي يحوي سلسلة من الجمل المتتالية يحوي حجم كبير من البيانات والمعارف، وهذا يختلف عن البيانات المهيكلة التي يتم تخزينها في قواعد البيانات والموصوفة بحقول مثل (الاسم الأول, الأسم الأخير, تاريخ الميلاد، مكان الإقامة).

تعتبر معالجة البيانات المهيكلة سهلة نوعا ما, على عكس البيانات الغير مهيكلة، فتخيل نص طويل يحوي في مكان ما المعلومات السابقة مثلا (ولد ماهر أحمد بتاريخ ١٣-٤-١٩٩٠ وهو الأن يسكن في مدينة دمشق)، استخلاص هذه المعلومات بشكل صحيح يعتبر غاية في الصعوبة.

يعتبر هذا المثال غاية في السهولة، فما بالك عندما نتحدث عن حجم هائل من المعلومات والمعارف المخزنة في ملايين بل ربما مليارات النصوص؟

لمحة تاريخية

في عام ١٩٦٥، اقترح جون توكي اعادة هيكلة علم الإحصاء باتجاه علم لم يكن له ملامح حينذاك، وصف جون هذا العلم الجديد بالخصائص التطبيقية التالي:

  • القدرة على التعلم من البيانات
  • تحليل البيانات
  • الارتكاز على النظريات الكلاسيكية في الإحصاء لتحقيق ذلك

في عام ١٩٨٥، قام بيل كليفلاند وليو بريمان  بالإلحاح على علم الإحصاء بالتوسع ليشمل:

  • تجهيز البيانات وتنقيحها 
  • تطبيق النماذج الإحصائية المعروفة على هذه البيانات

في أيلول ٢٠١٥، أعلنت جامعة ميشيغان في الولايات المتحدة الأميركية تخصيص مبلغ ١٠٠ مليون دولار لإحداث قسم جديد يدعى “علم البيانات”.

  • تم إنشاء هذا القسم لأسباب تجارية بحتة team-up مع شركات تقنية عالمية ضخمة.
  • جاء إعلان الجامعة كمايلي:

علم البيانات يعتبر اليوم قوة دافعة في الاكتشافات العلمية أجمع عن طريق التجريب، النمذجة والحساب القائم على البيانات الهائلة، سيشمل تركيزنا في هذا القسم على جمع، إدارة، تحليل، رسم, وفهم واستخلاص نتائج مفيدة من حجم هائل من البيانات المتجانسة وغير المتجانسة.

  • في نفس العام، أنشأت اختصاصات في كل من NYC, Columbia, و جامعة MIT.

البحث عن علم البيانات على  غوغل مقابل التعلم الآلي، لاحظ ازدياد البحث عليه منذ عام ٢٠١٥

ماذا يُدرّس في علوم البيانات؟

بالإطلاع على المواد التي تدرس في برنامج ماجستير علوم بيانات في جامعة بيركيلي، نرى أن المواد الأساسية في البرنامج هي:

  • Research Design and Application for Data and Analysis 
  • Exploring and Analyzing Data Storing and Retrieving 
  • Data Applied Machine Learning 
  • Data Visualization and Communication

علم البيانات مقابل الإحصاء

  • الفرق بين علم البيانات والإحصاء كان ومازال موضوع للنقاش، لكن نستطيع الحسم حول النقاط التالية:
    • عالم البيانات Data Scientist هو الخبير القادر على توظيف طرق علمية وإحصائية لاستخراج المعرفة من البيانات الخام
    • عالم الإحصاء هو الخبير الذي يقوم بجمع وتحليل بيانات رقمية ضمن مجموعات ضخمة .
  • إذا أين يكمن الفرق الأساسي الذي أدى إلى ظهور مصطلح علم البيانات؟ 
    • للإجابة على هذا السؤال، يجب أن نتعرف أولا على التقنيات الأخرى (غير الإحصائية) التي يجب على عالم البيانات ان يكون ماهر بتوظيفها بعمله.

حالة دراسية

طلب منك كعالم بيانات أن تصمم نموذج وبأسرع وقت يكون قادر على الإجابة عن أسئلة من نمط:

  • ما هو مفاعل تشيرنوبل؟
  • اين يقع نهر كولورادو؟
  • ماهي الشبكات العصبونية؟


-wget https://dumps.wikimedia.org/other/static_html_dumps/2008-03/aa/wikipedia-aa-html.7z
– regex (e.g. python) to extract titles and abstracts.
– Cleaning data: stemming, lemmatization, stop-words removal
– MapReduce: to  effectively store the wikipedia article pairs (title, abstract)
– Demo: e.g. Word-embeddings and Cosine similarity between the question and the title+abstract
– Print the answer

تعرّف أكثر على استخلاص المحتوى على الوب باستخدام لغة python في المقالة التالية:

https://blog.shamra.sy/article/5c7555473b694

ماهي المهارات التي استخدمتها؟

  • مهارات كمهندس برمجيات لفهم المشكلة وتحليلها والعثور على أفضل مورد بيانات متوفر
  • مهارات كمبرمج (بايثون مثلا)، لاستخدام regex لاستخلاص البيانات المهمة
  • معالجة لغات طبيعية لتحضير النص قبل فهرسته
  • مهارات كمهندس بيانات لتخزين البيانات ضمن Hadoop 
  • مهارات تعلم آلي لقياس التشابه بين مصفوفتين من العناصر

حالة دراسية

  • طُلب منك تصميم نموذج للتعرف على حالات هجوم DDOS  يتعرض لها موقع ما.
  • كعالم بيانات، ستبدأ بالنظر إلى Apache Access log



Anomaly Detection

  • تعرف هذه المهمّة ب Anomaly detection.
  • الهدف في نهاية هذه المهمة بإرسال تنبيهات لمدير المخدمات عند حدوث هجوم ما.
  • قد يظهر للوهلة الأولى عن الموضوع بسيط: عندما يتعدّى الترافيك (upload or download) عتبة نقول ان هجوم ما يتعرض له الموقع.
  • لكن (وبسبب خبرة عالم البيانات بطبيعة الموقع Domain Expert)، نرى ان هذه الفرضية خاطئة:
    • قد يزداد الترافيك على الموقع فوق المعدل في فترة ما من اليوم بشكل طبيعي
    • وجود حدث ما (مثل نشر نتائج وزارة التربية في سورية) قد يتسبب بترافيك غير معتاد 
    • يستطيع خبير عالم البيانات الوصول إلى الملاحظات التالية:
      • تتميز الطلبات access logs أثناء الهجوم بميزات مختلفة عن غيرها (الوقت، الصفحات المطلوبة، الIP …).
      • كل طلب يتميز بخصائص Feature Set 
      • النمذجة الإحصائية تساعد على إنشاء تصّور عن شكل الترافيك على الموقع
      • تقنيات تعلّم ألي مثل Principal Component Analysis مع تقنيات إحصائية مثل Covariance and Correlation matrix على اختيار الخصائص Feature الفعالة للتعلم.

إذاً من هو عالم البيانات؟

  • عالم البيانات هو شخص أفضل في الإحصاء من أي مهندس برمجيات، وأفضل في هندسة البرمجيات من أي إحصائي.
  • له القدرة على البرمجة المخصصة لمعالجة البيانات (data preparation, preprocessing, visualisation) مثل Python libraries for linear algebra, plotting,: numpy, matplotlib.
  • خبرة في الإحصاء و الاحتمالات والرياضيات: probability distribution, bayesian rule, covariance, vector and matrix multiplication, derivation.
  • خبرة في التعلم الآلي machine learning: feature selection, PCA, regression, classification, clustering..

عرضنا في هذه المقالة لمحة تعريفية عن علم البيانات وبعض المفاهيم التي يجب على عالم البيانات الإلمام بها، سنعرض في درس لاحق حالات دراسية وتفاصيل أكثر عن مهام وأدوات يستخدمها علماء البيانات أثناء عملهم.