التنقيب في البيانات Data Mining بالمختصر هي عملية اكتشاف النماذج Patterns في مجموعات كبيرة من البيانات باستخدام ادوات إحصائية وتقنيات تعلّم آلي.
على سبيل المثال، تخيّل ان لديك بيانات كبيرة جداً تمثل المشتريات التي قام بها زبائن في متجر ما، عند تطبيق تقنيات التنقيب في البيانات يمكنك أن تكتشف بعض النماذج الملفتة والمفيدة مثلا:
- هناك احتمال بنسبة ٧٠٪ ان الزبون الذي قام بشراء باستا، سيقوم أيضا بشراء معجون الطماطم.
- هناك احتمال بنسبة ٩٠٪ ان الزبون الذي اشترى معجون أسنان سيشتري أيضا فرشاة أسنان.
هذان مثالان بسيطان جدا عن النماذج التي يمكن اكتشافها في البيانات الكبيرة، الأن قد يقول قائل ولكن هذه الحقائق بديهية ولا تحتاج لتطبيق تقنيات معقّدة وتوظيف خبير لاكتشافها. هذا صحيح، ولكن في بعض الحالات تكون النماذج غريبة وغير متوقعة وفي حالات اخرى تكون البيانات صعبة الفهم ولايمكن اكتشاف نماذج منها بسهولة.
على سبيل المثال، في ٢٠١٦ قامت walmart في الولايات المتحدة الأميركية بتطبيق تقنيات التنقيب في البيانات على بيانات ضخمة عن سجلات الزبائن واكتشفوا ارتباط مذهل بين الطقس السيء وزيادة الطلب على فطيرة الفراولة، عند اكتشاف هذه الحقيقة تم تزويد المحلات التجارية التابعة لهم بكميات كبيرة من هذه الفطيرة قبل نفاذها مما انعكس على ارتفاع كبير في مبيعاتهم.
المصدر: