سنعرض في هذه المقالة أدوات خاصة بتحليلات البيانات الضخمة مثل: Tableau Public و OpenRefine و KNIME و RapidMiner و Google Fusion Tables و NodeXL و Wolfram Alpha و Google Search Operators و Solver و Dataiku DSS مع استخدامات كل منها.
أدوات تحليلات البيانات
تحليلات البيانات هي عملية تطبيق مجموعة من التقنيات الاحصائية والرياضية على البيانات لاستخلاص النتائج. قمنا في مقال سابق بشرح تحليل البيانات بالتفصيل، قبل المضي في قراءة هذه المقالة، ننصح بالاطلاع على المقالة السابقة على الرابط:
سنخصص هذه المقالة لمناقشة أهم الأدوات لتحليلات البيانات الضخمة, إن أهم وأشهر ١٠ أدوات لتحليلات البيانات هي:
- Tableau Public
- OpenRefine
- KNIME
- RapidMiner
- Google Fusion Tables
- NodeXL
- Wolfram Alpha
- Google Search Operators
- Solver
- Dataiku DSS
فيما يلي سنقدم فكرة سريعة عن أشهر هذه الأدوات وكيف يمكن لها أن تساعدك في تحليل البيانات وماهي سلبيات كل منها.
أداة Tableau لتحليل البيانات
هي أداة بسيطة وسهلة تقدم تحليلات حول البيانات باستخدام الرسم البياني, تدعم هذه الأداة مليون صف في البيانات كحد أقصى, وتعتبر افضل من كثير من الأدوات الموجودة في السوق.
واحدة من أهم مزايا هذه الأداة أنك تستطيع نشر لوح تفاعلي Interactive dashboard على الانترنت مجانا دون الحاجة إلى اي خبرة في الوب او البرمجة.
كما يمكنك نشر الألواح التفاعلية في مدونتك الخاصة عن طريق embedded code . كما يمكنك مشاركة النتائج التحليلية للبيانات عبر الايميلات او الشبكات الاجتماعية. هذه الخاصية في المشاركة تجعلها واحدة من أهم الأدوات في تحليل البيانات.
سلبيات استخدام الأداة Tableau
من سلبيات هذه الأداة هو محدودية البيانات اي لايمكنك معالجة اكتر من مليون صف ولكن ربما يجد الكثيرين هذا الرقم اكثر من كافي, ايضا لا يمكن لهذه الاداة ان تتصل بأداة R لتطبيق نماذج متقدمة أكثر, والطريقة الوحيدة لاستيراد البيانات هي عن طريق Excel او ملف نصي.
أداة OpenRefine في تحليل البيانات الكبيرة
كانت تعرف هذه الأداة سابقا ب GoogleRefine وهي تعتبر اداة لتنظيف البيانات Data cleaning ليتم تحليلها فيما بعد. بشكل عام يمكن استخدام هذه الاداة للأغراض التالية:
- تنظيف البيانات.
- تحويل البيانات Transformation.
- استخراج البيانات من مواقع الانترنت.
من سلبيات Open Refine انها لا تعمل جيدا مع البيانات الضخمة.
أداة KNIME في تحليل البيانات
تستخدم هذه الأداة لمعالجة وتحليل ونمذجة البيانات باستخدام البرمجة المرئية، حيث تشمل عدة اداوت تنقيب عن البيانات وتعلم آلي يمكن تطبيقها مباشرة على البيانات.
من أهم مزايا أداة KNIME:
- لا تحتاج لكتابة كود برمجي, كل ما عليك فعله هو السحب والافلات.
- يمكنك تضمين مكونات من لغات برمجية أخرى مثل بايثون و لغة البرمجة R.
من سلبيات هذه الأداة انها توفر رسم بياني بدائي.
أداة RapidMiner في تحليل البيانات
تقدم هذه الأداة توابع جاهزة في التعلم الآلي يمكن تطبيقها على البيانات بشكل مباشر, وتشمل أيضا أدوات تنقيب عن البيانات ورسم بياني ومعالجة بيانات ونماذج احصائية جاهزة لنمذجة البيانات.
ينصح باستخدام RapidMiner عند الحاجة الى:
- ادوات تعلم آلي خاصة بالتنبؤ يمكن دمجها في نموذج عمل ما.
- يمكن استخدامها ايضا لتطوير تطبيقات وليس فقط لحالات تجارية.
من سلبيات RapidMiner انها تضع قيود على عدد الصفوف التي يمكن معالجتها، كما أنها تحتاج ألى موارد عتادية أكثر من ODM او SAS.
جداول Google Fusion لتحليل البيانات
تعتبر جداول Google Fusion نسخة أكبر ومتقدمة اكثر من Google Spreadsheets وهي أداة اكثر من رائعة لتحليل البيانات وتنفيذ رسومات ومخططات متقدمة, تعتبر واحدة من افضل الادوات على الاطلاق.
يمكن استخدام Google Fusion tables في الحالات التالية:
- رسم مخططات رسومية من بيانات ضخمة جدا.
- فلترة وتلخيص مئات الألاف من صفوف البيانات.
- دمج عدة جداول مع بيانات أخرى من الوب.
- دمج جدولين او ثلاثة لتوليد مخطط رسومي واحد يتضمن جميع البيانات.
- أنشاء خريطة تفاعلية بدقائق.
من سلبيات Google Fusion Tables انه يدعم فقط 100 ألف صف في جدول البيانات ولايمكن ان يتم إرسال بيانات عبر ال API الخاصة به اكثر من ١ ميغابايت.
خلاصة
عرضنا في هذه المقالة أشهر الأدوات لتحليل البيانات الكبيرة يجب على كل محلل بيانات ان يكون على المام بأحدها على الأقل. أخبرنا ما هي الأداة المفضلة لديك.