أقدّم في هذه المقالة مقدّمة إلى تقنيّة التوصيف التلقائي للصور ضمن سلسلة تطبيقات التعليم العميق ستحوي عدّة مقالات لاحقاً.
إذاً ماذا تعني عملية الوصف التلقائي لمحتويات الصورة؟
لننظر إلى الصورة في الأعلى ونحاول ان نصف مانراه، كيف تستطيع وصف مايجري بالصورة؟
- رجل يقوم بإطعام كلبه؟
- كلب ينظر إلى رجل وهو جاثي امامه؟
- رجل وكلب في حديقة؟
جميع الخيارات التي قرأتها في الأعلى تستطيع خوارزميات التعلم العميق اقتراحها بكل سهولة.
بالتالي يمكن تعريف الوصف التلقائي للصورة على أنه:
عملية توليد وصف نصّي لمكونات الصورة الأساسية بالإضافة إلى مراعاة السياق الذي توجد به هذه العناصر.
يعتبر الوصف التلقائي لمحتويات صورة ما (Automatic image captioning) من التحديات الاساسية في الذكاء الصنعي الخاص بتحسين قدرة الكمبيوتر على فهم ما يراه Computer Vision وتطبيقات معالجة اللغات الطبيعية.
تأتي أهمية هذا المجال البحثي من التأثير الكبير لتطبيقاته عندما توضع في خدمة على سبيل المثال شريحة من الناس التي تعاني من مشاكل في الرؤية، حيث بدأت بعض المواقع في مساعدتهم على فهم محتويات الصور عن طريق توليد توصيف تلقائي للصور ثم الاستعانة بأنظمة تحويل النص إلى كلام.
يجب على الأنظمة الجيّدة ألا تصف فقط العناصر الموجودة في الصورة، وإنما أيضا وصف طريقة تفاعل هذه العناصر مع بعضها في الصورة ووصف النشاط التي تقوم به، والأهم من ذلك التعبير عن هذه المعلومات بجمل صحيحة باللغة المطلوبة (عربية على سبيل المثال).
توصيف الصور في غوغل
تستخدم غوغل تقنية توصيف الصور في الكثير من تطبيقاتها، بالاضافة إلى تنظيم الصور وتسهيل البحث عنهم في أجهزة أندرويد، تدعم غوغل نظام البحث في الصور في هذه التقنية، الأن تستطيع ان تصف لغوغل ماذا تريد أن تحوي الصورة التي تبحث عنها لكي تصل إليها بسهولة.
توفّر غوغل أيضاً API للمطورين لاستخدام هذه التقنية عبر الرابط.
قمت بتجريب صورة خاصة بي وكانت النتائج رائعة.
في تبويب وجوه، تقوم الأداة بتحديد الوجه في الصورة مع العناصر الأساسية في الوجه، مثل العيون، الشعر، الأنف….
وفي جهة اليمين يقوم النموذج بإعطاء قيمة احتمال لكل خاصية، مثلا سعادة (كونني ابتسم في الصورة) تملك أعلى قيمة.
أما تبويب علامات Labels، يتم توصيف الصورة والسياق بشكل تفصيلي أكثر، مثلاَ يخبرنا المودل عن وجود شعر على الرأس واللحية، يبدو أنني أقضي عطلتي في الصيف بجانب الأشجار.
أما تبويب Web، فيوضح كيف استطاع غوغل معرفة شخصيتي Identity عن طريق مطابقة الصورة مع معلومات جمعها غوغل من الوب.
المدهش معرفة غوغل أن صاحب الصورة يدرس في جامعة تشارلز في براغ (وهذا صحيح)، كما يهتم بعلوم الحاسب والبرمجة، بالاضافة إلى الطبيعة والسياحة (أيضا صحيح).
توصيف الصور في فيسبوك
بدأت فيسبوك باستخدام هذه التقنية من عام ٢٠١٦ على منصتها، حيث طرحت أداة تدعى Automatic Alternatic Text، وهي عبارة عن مودل يقوم بتوليد توصيف لمحتويات الصور التي نقوم بنشرها على فيسبوك باستخدام شبكات التعلم العميق ووضع هذا التوصيف ضمن حقل alt الخاص بالصورة. يستطيع النظام في فيسبوك تحديد عناصر مثل (المأكولات، السيارات، الحيوانات الخ)، كما يستطيع توصيف الناس الظاهرين بالصورة بشكل تلقائي مثل شخص يبتسم أو يتكلم على جهاز الموبايل.
الصورة في الأعلى هي صورتي الشخصية على فيسبوك، قام فيسبوك عن طريق استخدام النموذج الخاص بهم بتوليد الجملة التالية:
الصورة يمكن أن تحوي: ١ شخص، يبتسم، ذقن، شجرة وصورة في الهواء الطلق.
صرّحت فيسبوك مؤخرا أنه أكثر من ٥٠ ألف مستخدم على منصتها يستخدم هذه الميزة مع ادوات تحويل النص إلى صوت للتعرف على محتويات الصور، وهذا يشكل تطور هائل لمساعدتهم على التعرف على محتويات الصور التي يقوم أصدقائهم بنشرها على المنصة.
توصيف الصور في Apple
كما انا siri في أجهزة أيفون دُعمت بهذه التقنية، مثلا تستطيع أن تطلب من سيري عرض الصور الخاصة بك وانت تقود السيارة، او وأنت تتناول الطعام، كما دعمت التقنية بمعلومات السياق الموجودة في الصورة مثل التاريخ ومكان الصورة.
قمت في هذه المقالة بعرض تعريف عن هذه التقنيّة، وكيف تقوم بعض الشركات بتطبيقها في خدماتها، سأقوم في مقالات لاحقة بشرح أمثلة كاملة عن عملية تدريب واختبار واستخدام نموذج لتوصيف محتويات صور باللغة العربية.