نعرض في هذه المقالة تاريخ وأنواع الترجمة الآلية، والوضع الترجمة الآلية من اللغة العربية وإليها والمشاكل التي تعاني منها، ومن ثم تبيان الخطوات التي ينبغي إتباعها للتقدم في هذا المجال.
تكون المعاجم والمصطلحات ركيزةً رئيسيةً في الترجمة كما تكون الذخيرة اللغوية حديثًا والعمليات الإحصائية عليها جزءاً مهماً من مرتكزات الترجمة الآلية. لذلك فإن إعداد معجم عربي محوسب وذخيرة لغوية متعددة اللغات تعتبر خطوات هامة في طريق تطوير الترجمة الآلية من اللغة العربية وإليها.
1- مقدمة
لم تعد المعالجة الحاسوبية للغة العربية من أمور الترف اليوم، فقد أصبح واضحًا أن استعمال الآلة اليوم باللغة التي يتقنها الفرد العادي أمر ضروري. وفي الوقت نفسه أصبح الحصول على كلام منطوق شمن الآلة أمرًا متيسرًا تقنيًّا. لذلك فإن فهم الآلة للغة العربية ومعالجتها كتابة ونطقًا هو من المهام التي ينبغي خدمتها إلى أقصى ما يمكن لكي يكون تواصلها مع البشر سهلًا ودقيقًا. إن الجهود في مجال معالجة اللغة العربية لا تزال متأخرة وهي بحاجة إلى الكثير من الأبحاث والتطبيقات. فالجهود في مجال اللغة من ناحيتي الصرف والنحو تحتاج المزيد. والموارد التي تحتاج إليها عملية حوسبة اللغة، هي الأخرى بحاجة إلى المعاجم الآلية والمدونات الموسومة وشبكات الكلمات والمكانز وأبحاث الدلالة. وعلى ذلك فالأبحاث في كل هذه المجالات وغيرها ضرورية لخدمة التطبيقات المختلفة التي يحتاج إليها التعامل اليومي مع الآلة باستخدام اللغة العربية. وأحد هذه التطبيقات المهمة هو الترجمة الآلية.
تشهد التّرجمة نموًّا سريعًا جدًّا هذه الأيام، فهي وسيلة فعّالة لنقل المعرفة والتواصل بين البشر الذين يتكلمون لغات مختلفة. وقد زاد التقدم في التقنيات الحاسوبية الحديثة وفي حقل الاتصالات هذه الأهمية وسهّل الاتصال مع الآخر. فالجانب الرئيسي للترجمة يعتمد على فهم معاني الكلمات في مفردات اللّغة المراد الترجمة منها (لغة المصدر) ونقل المعنى إلى اللغة المراد الترجمة إليها (لغة الهدف). إن عملية النقل بين اللغتين يمكن أن تكون حرفية أي باستعمال معاني كلمات اللغة المصدر كلمة كلمة، وهذه الطريقة البدائية ليست هي الفضلى لأنها تفقد المفهوم العام المراد نقله من لغة المصدر إلى لغة الهدف. أما الطريقة الثانية فتهتم بالمعنى العام للعبارات في اللغة المصدر والتعبير عنها باللغة الهدف بلغة رصينة دون التقيد بحرفية النص الأصلي. إنّ أبرز التّحدّيات التي تواجه التّرجمة هو التنوع الكبير في التراكيب أو القواعد اللغويّة وعملية تفسير الجملة التي تستخدم تركيبًا لغويًّا معيّنًا، ومن ثمّ اختيار أفضل تركيب للجملة في اللغة المستهدفة، لذلك فإن فهم المعنى العام والتعبير عنه بلغة الهدف هو التحدي الأكبر في هذه الطريقة.
تُعتَبر الترجمة الآلية أحد أهم الحُقول وأصعبها من حيث إمكانية التطبيق في حياتنا اليومية، وهناك العديد من البحوث حول التّرجمة الآلية وتطويرها بين اللغة الإنجليزية واللغات الأخرى كالألمانية والفرنسية والإيطالية واليابانية والصينية والكورية وغيرها من اللغات. وقد أدت تلك البحوث إلى أنظمة ترجمة آلية متقدمة. لكن بالمقابل، هناك القليل من البحوث المماثلة حول اللغة العربية، لذلك فإن ما يتوافر من أنظمة للترجمة من اللغة العربية وإليها لا يزال بعيداً عن الدقة، وهي بذلك يصعب الاعتماد عليها في الوقت الحاضر.
لا بد وأن يشار إلى أن الترجمة الآلية تطورت عبر العقود القليلة الأخيرة تطوراً كبيراً بتطور علوم الحاسوب وبتراكم الخبرات في معالجة اللغات الطبيعية التي تستخدم الذكاء الاصطناعي. كما أن تطبيق وسائل المعالجات الحاسوبية على لغة ما مكّن من الغوص في دقائق اللغات المختلفة لوجود السمات العامة للغات البشرية، لكن لكل لغة خصوصياتها وهذا يحتاج إلى أبحاث خاصة لكل لغة على حدة.
إن تطوير برامج للترجمة الآلية خاصة من الإنكليزية إلى العربية أمر في غاية الأهمية لنقل ما ينشر باللغة الإنكليزية إلى العربية لكي يطلع القارئ العربي على المستجدات العلمية أولاً بأول، خاصة أن اللغة العربية ليست هي اللغة الأولى للعلوم والتقدم العلمي في العالم اليوم.
2- تأريخ الترجمة الآلية (1و2)
استُخدم الحاسوب في الترجمة فعلياً لأول مرة من قبل وارن ويفر عام 1947، فقد قدم في عام 1949 اقتراحاً لزملائه لتطوير أنظمة الترجمة الآلية بحيث لا تقتصر على الترجمة كلمة كلمة؛ وذلك من خلال فهم المعنى المباشر للكلمات التي تشير لأكثر من معنى واحد. وقد دقق النظر في التشابه بين تركيب المخ البشري وكيفية عمل الآلات منطقياً. وقد توصل في نهاية بحثه إلى أن الترجمة الآلية ممكنة التحقيق. كانت هناك في تلك الحقبة حاجة سريعة للترجمة غير الدقيقة، وذلك نظراً لحاجة الولايات المتحدة للاطلاع على المراسلات التي يقوم بها الاتحاد السوفياتي، في الوقت نفسه الذي ظهرت فيه الحواسيب وتبينت قابلياتها المتنامية. ولذلك كانت أنظمة الترجمة من الروسية إلى الإنكليزية أولى المحاولات، فقد أجريت بنجاح في جورج تاون أول ترجمة من اللغة الروسية إلى الإنكليزية عام 1954، وقد تنبه الباحثون في الاتحاد السوفياتي إلى أهمية الترجمة الآلية فقاموا في عام 1955 بأول تجربة في الترجمة الآلية من الإنكليزية إلى الروسية باستعمال قاموس يحوي 2300 كلمة. وأشارت التجربة إلى ضرورة تمثيل التراكيب اللغوية بمستوى بناء الجملة وبالمستوى المعجمي. وقد اتضح أن مشكلة الغموض في التعامل مع الترجمة الآلية هي مشكلة فعلية لكنها لم تقدر حق قدرها حينئذ. لقد كانت الفترة من 1956 إلى 1966 فترة التوقعات الكبيرة من الترجمة الآلية لكن لم يتحقق ما كان يؤمل من الحصول على دقة بنسبة 95% دون معالجة مسبقة للنصوص، فلقد أوضحت الأبحاث أن تركيب اللغات أكثر تعقيداً مما كان متصوراً، وأن المترجمين من البشر يستعملون الكثير من المعرفة غير المنظورة في حقل المادة المترجمة والمعرفة بالحياة العادية أكثر مما كان متصوراً. وأدى ذلك إلى تباطؤ في أبحاث الترجمة الآلية وربما إهمال الموضوع حتى عام 1975.
لقد كانت أولى محاولات تطوير برنامج ترجمة من الإنكليزية إلى العربية في نهاية السبعينيات في ولاية يوتا الأمريكية، ولم يكن يحتوي البرنامج على تحرير أولي، لكن كان بالإمكان إجراء تحرير نهائي. وقد احتوى النظام على مرحلتين، الأولى لتحليل اللغة المصدر والثانية لتوليد اللغة الهدف. كان تحليل اللغة الإنكليزية موجهاً لكي يولد العبارات في اللغة العربية بشكل مباشر باستعمال معجم ثنائي اللغة للعبارات. ولم تكن الألفاظ والجمل الإنكليزية تحلل بعمق، بل كان يكفي توليد المقابل باللغة العربية. وهكذا كان النظام باتجاه واحد ولم يكن يغوص بعمق في اللغة الإنكليزية. وقد استعمل البرنامج نفسه فيما بعد لترجمة الموسوعة البريطانية (بريتانيكا) إلى اللغة العربية. كما قامت سلطنة عمان بالحصول على امتياز للبرنامج لكي يستعمل في ترجمة الوثائق الإنكليزية إلى العربية.
لم تكن الطريقة المباشرة هذه في الترجمة تغوص في أعماق اللغة المصدر، ومن ثم أدرك مطورو البرمجيات أن الطريقة المباشرة لا تكفي لمعالجة اللغات الطبيعية المعقدة. ولنضرب مثالاً على إحدى الصعوبات التي جوبهت: فقد وجد أن التعامل مع الجمل باستبدال مواقع الفعل بين الإنكليزية والعربية مثل “Ali drinks tea” فترجمتها إلى: “يشرب علي الشاي” احتوى على استبدال موقع الفعل والفاعل بحيث أصبحت الترجمة العربية جملة فعلية حيث تبتدئ بالفعل بدل الاسم. لكن ذلك لم يكن كافياً لترجمة جملة مثل:
The man whose clothes are dark and carrying a suitcase in his left hand ran away.
فمثل هذه الجملة تحتاج إلى تحليل عميق لتحديد الفاعل ومن ثم اقترانه بالفعل الذي يبعد عن الفاعل بأكثر من عشر كلمات.
ومن المشاكل التي تعاني منها الترجمة مدى التوافق في حل مشكلة ترتيب العبارة التي تحوي أداة النفي (not) والتوافق بين الصفة والاسم والمحتوية على (did not) فيما يتعلق بالجنس والحالة، والتنكير والتعريف، والضمائر الملحقة، والتوافق بين الفعل والفاعل، وعملية الإضافة والحذف بين اللغتين. يظهر ذلك إذا كانت اللغة الأصلية تحتوي على كلمات إضافية خاصة بها ليس لها وجود في اللغة الهدف مثلاً.
وعلى ذلك فقد أصبح واضحاً أن الطريقة المباشرة لا تعطي نتائج دقيقة لترجمة مثل هذه الجمل الطويلة. وهكذا برزت حاجة لتطوير المعرفة بكيفية تحليل الجمل الطويلة بعمق وكفاءة دون غموض، وعند ذلك ظهرت الطريقة التحويلية التي قدمت للترجمة الآلية أمرين: الوصف لتحليل الجملة ومن ثم التقنية الجديدة لتمثيل هذا التحليل العميق، وهو ما طور خلال السبعينيات والثمانينيات من القرن الماضي.
عادت الأبحاث على أشدها في أوربا وكندا واليابان بين عامي 1975 و1985 باستعمال الأنظمة الخبيرة وأبحاث معالجة اللغات الطبيعية، وبشكل خاص للغات الأوربية واليابانية، وبذلك ظهر الجيل الثاني من برامج الترجمة الآلية فظهرت في الأسواق برامج تجارية تستعمل الحواسيب المايكروية. وهذا التطور شمل البحوث المعجمية والنحو والصرف والدلالة.
وفي عام 1989 كانت بداية الجيل الثالث من برامج الترجمة الآلية التي استندت إلى المعلومات الإحصائية حينما قامت شركة (أ.ب.م.) بمشروع كارديد المستند إلى الترجمة بالأمثلة والترجمة المحدودة الموضوع مع تعدد اللغات المترجم منها والمترجم إليها، فعاد الاهتمام بالترجمة الآلية لحد لم يسبق له مثيل. وقد استندت هذه الترجمة إلى الذخيرة اللغوية ( (Corpus Based MT التي لا تزال في تطور حتى اليوم مع بعض التكامل مع الأساليب الأخرى للترجمة الآلية.
لقد حدث تقدم هائل في برامج الترجمة الآلية بين اللغات الأوربية فيما بينها وبين اليابانية والصينية والكورية، وقد ازداد الطلب عليها بشكل واسع وساهمت الشابكة بزيادة الحاجة إلى الترجمة الآلية وسهّلت في تقديم المادة المترجمة إلى من يحتاج إليها. ولا يزال التقدم على أشده في تكامل عمل المترجمين من البشر مع الترجمة الآلية، حيث يحتاج التقدم بمستوى الترجمة الآلية إلى مترجمين أكفياء لتطويرها والارتقاء بها، وليس كما كان يخشى بأن الترجمة الآلية ستؤدي إلى انقراض مهنة الترجمة البشرية.
إن استعمال أنظمة الترجمة الآلية قليلة الدقة يدفع إلى الحاجة إلى تحسين النوعية بشكل مطّرد بمساعدة المترجمين من البشر. وقد وظفت بلدان كثيرة الترجمة الآلية لخدمة متطلباتها الاجتماعية والاقتصادية والعلمية والتقنية، في طليعتها الولايات المتحدة وروسيا والصين واليابان. وفي الحقل العلمي هناك جهود كبيرة لترجمة المحاضرات العلمية المتوافرة مجاناً على الشابكة إلى لغات أخرى. إن أكبر مجموعة محاضرات متقدمة مفتوحة المصدر متوافرة على الشبكة هي محاضرات جامعة إم آي تي الأمريكية. وهي الآن تحظى بترجمة آلية إلى اللغة الصينية مع مراجعة بشرية لما بعد الترجمة الآلية(3).
تجري منذ الثمانينيات في القرن الماضي العديد من الأبحاث حول المعالجة الصرفية للغة العربية وكان معظم تلك الدراسات ينصب على عملية فصل السوابق واللواحق في الكلمة العربية المركبة، ومن ثم استخلاص الجذر لمعرفة العمليات الصرفية التي أجريت عليها والتي يمكن للحاسوب القيام بها بعد برمجته بشكل دقيق. وتجدر الإشارة إلى أن قواعد الصرف العربية مهيأة للبرمجة أكثر من قواعد النحو التي تحتاج إلى ارتباط بالمعنى والدلالة أكثر من الصرف.
3- أنواع الترجمة الآلية
3-1- الترجمة الآلية المستندة إلى المعاجم والقواعد
من البدهي أن تكون المحاولات الأولى للترجمة الآلية مستندة إلى المعاجم ثنائية اللغة ثم بعد ذلك المضي بإدخال قواعد صرفية ونحوية ودلالية على الترجمة. وقد وجد أنه من الصعوبة بمكان فصل العمليات الصرفية والنحوية والدلالية بعضها عن بعض. كما أن المزج بينها بطريقة علمية أمر في غاية الصعوبة. ومع هذا تحقق بعض التقدم في محاولات ترجمة الجمل القصيرة ذات التراكيب البسيطة الشائعة.
3-2- التّرجمة الآلية الإحصائيّة
“الترجمة الآلية الإحصائية” هو مصطلح يشير إلى مجموعة من أنظمة الترجمة الآلية التي طورت باستخدام أساليب التعلّم الآلي، وهي النوع الأكثر شيوعاً الآن من أنواع الترجمة الآلية. لقد طُور أول أنظمة الترجمة الآلية الإحصائية قبل ما يقرب من ثلاثة عُقود، واستخدمت شركة (IBM) في بداية ظهور الترجمة الإحصائية نظرية (Bayes) لتطوير منهجية إحصائية للتّرجمة الآلية، حيث اعتمدت على سلسلة من الكلمات والرموز الموجودة في لغة المصدر مع مجموعة من المفردات يمكن أن تُسمّى (أ) وتحويلها إلى سلسلة من الكلمات والرموز الموجودة في اللغة الهدف مع مجموعة أخرى من المفردات تسمى (ب).
تتميز أنظمة الترجمة الآلية الإحصائية بقدرتها على تعلّم ترجمة العبارات وليس الكلمات المفردة فقط، وميزة أخرى لبعض هذه الأنظمة أنها تجمع عدة موارد معرفيّة لاستخدامها لتحليل الجملة المترجمة. ويجري وصف الترجمة الآلية الإحصائية عادة بأنها اختيار الجملة (أو العبارة) الهدف التي لها أعلى احتمالية مقابل الجملة (أو العبارة) المصدر.
قام كيفن نايت ودانيال ماركو بتحويل الأبحاث العلمية المتعلقة بالترجمة الآلية إحصائياً في عام 2002 إلى منتج للترجمة الآلية من العربية إلى الإنكليزية، وكان ذلك مثالاً جيداً لتكوين ذخيرة لغوية متقابلة بين العربية والإنكليزية والاستفادة منها للترجمة الآلية. وأشهر الأمثلة على الترجمة الإحصائية بين اللغة العربية واللغات الأخرى هي ترجمة جوجل.
3-3- التّرجمة الآلية باستخدام الشّبكة الدلاليّة
تعمل الشّبكة الدلالية على إعادة هيكلة كمّ هائل من البيانات التي يمكن الوصول إليها وتكون مفهومة لكل من البشر والآلات المتاحة على الشّابكة بطريقة مشابهة لتلك التي يُدركها العقل البشري، وتكون بمثابة تدريب للشبكة على فهم السياق القريب من أي كلمة أو عبارة يتمّ البحث عنها.
3-4- التّرجمة الآليّة العصبيّة
تُعتبر التّرجمة الآلية العصبية موضوعاً جديداً، بدأ يشهد في الآونة الأخيرة نشاطاً، حيثُ تجري خلالها التّرجمة الآلية بشكل مختلف تماماً عن الطرق التقليدية لأساليب التّرجمة الآلية الإحصائية القائمة على العبارة. فبدلاً من التَمرُّن على المكوّنات المختلفة للترجمة الآلية بشكل مستقل، يستخدم هذا النموذج الشبكة العصبية الاصطناعية لتعليم النموذج أو تدريبه على جمع المكونات معاً لتحقيق أكبر قدر من الإتقان في أداء الترجمة بوساطة خطوتي الشبكة العصبية المتعاقبتين: “التشفير” و”فكّ التشفير”.
3-5- الترجمة الآلية الهجينية
تمكّنت الترجمة الآلية من حلّ الإشكال في بعض الأحوال باستخدام معلومات إضافية مثل الترجمة الآلية المعتمدة على القواعد التي تساهم في تصحيح الأخطاء باستخدام معلومات دلالية، بينما تستخدم أنظمة الترجمة الآلية الإحصائية الإحصاء لكمية هائلة من الذخيرة اللغوية ثنائية اللغة أو متعددة اللغات. وكلا النظامين له نقاط قوة وضعف، وقد ساهما بشكل منفصل بحل جزء من المشكلة، أما الترجمة الآلية الهجينة فزادت من تحسين المخرجات لأنظمة تمييز الكلام الآليّة (automatic speech recognition (ASR)) وأنظمة التحكم بالوسائط بالجمع بين أهم ميزات النظامين. وقد أثبتت التجربة أن النظام الهجين يكون أداؤه أفضل من النظام الإحصائي وحده أو الطرق المعتمدة على القواعد وحدها.
كما ظهرت بعض الأنظمة الهجينية التي تستعمل للترجمة المكتوبة والمنطوقة باستعمال الطريقتين: الطريقة الإحصائية والطريقة المستندة إلى القواعد، حيث إن لكل من الطريقتين فوائد ونقائص. لذلك؛ من المزاوجة بينهما يمكن الحصول على الفوائد من كلتيهما واستبعاد النقائص، وهو أمر ليس بالهين من ناحية التطبيق خاصة في الترجمة الآلية الفورية (للكلام المنطوق).
ولغرض المضي في تحسين أداء الترجمة الآلية من العربية وإليها يجب القيام بعمليات مختلفة؛ منها اكتشاف أسماء الأعلام ببرنامج خاص، وهذا يمكن أن يحسن من الترجمة، فما أن يكتشف الاسم حتى يمكن القيام بعدة عمليات تفيد في الترجمة، فمثلاً عند اكتشاف أن كلمة مثل “أحمد” هي اسم علم فإنها لا تترجم على أنها فعل مضارع يعود إلى المتكلم (أَحمَدُ I praise).
يوظف نموذج الترجمة الآلية المعتمد على القواعد نظاماً يتوافر فيه معجم غني بالشروح يحتوي بدوره على معلومات دلالية ووظيفيّة، ويُستخدم النظام لتغذية عمل الترجمة الآلية الهجينة.
4- الترجمة الآلية من العربية وإليها:
إن إحدى المشاكل الرئيسة في الترجمة من الإنكليزية إلى العربية هي: التوافق وإعادة الترتيب بين الصفات والأسماء والتوافق بين الفعل وفاعله والتوافق بين الضمائر والأسماء الموصولة، إذ إن ترتيب الكلمات في هذه المجالات الثلاثة مختلف بين العربية والإنكليزية.
فتحويل موقع الفعل والفاعل والمفعول مثل: “The patient needs a special treatment” إذ تصبح “احتاج المريض معالجة خاصة” وذلك بتقديم الفعل على الفاعل في العربية. وتحويل أداة التعريف (the) لما قبل الصفة مثل “The effective health treatment” وتكرار ألف لام التعريف وإعادة ترتيب الصفة والموصوف فتصبح “المعالجة الصحية الفعالة”.
يرى البعض بأنّ أبرز التّحديات التي تواجه التّرجمة هو التنوّع الكبير في التراكيب أو القواعد اللغويّة وعملية تفسير الجُملة التي تستخدم تركيباً لغوياً معيناً، ومن ثمّ اختيار أفضل تركيب للجملة في اللغة المُستهدفة.
لقد أجريت أبحاث عديدة لدراسة ترتيب الجمل المحتوية على الفعل بين الإنكليزية والعربية. وبعد ذلك استعمل هذا الترتيب في الترجمة الآلية الهجينية لتحسين نوعية الترجمة. تحاول الترجمة المستندة إلى الأسس التحويلية إيجاد تمثيل وسيط يلتقط المعنى الأصلي لكي يحوله إلى اللغة الهدف، فالغرض هو اكتشاف كيفية تحويل الجمل المحتوية على (فاعل– فعل– مفعول به) من الإنكليزية إلى (فعل– فاعل– مفعول به) بالعربية. وتحاول الترجمة المستندة إلى الأمثلة التعامل مع الحالات غير النظامية وذلك لكي تحاكي الترجمة المثال المعروض. لقد ظهرت عدة برامج ترجمة من العربية وإليها، منها: الكافي وصخر وجوجل وبينغ وسيستران، وحاولت كثير من الأبحاث مؤخراً مقارنة عدد من برمجيات الترجمة. وقد خلص أحد هذه الأبحاث إلى وجود 12 مشكلة تواجه برامج الترجمة الآلية وتحدد دقة الترجمة. من هذه المشاكل: مدى التوافق في حل مشكلة ترتيب العبارة التي تحوي أداة النفي (not) والتوافق بين الصفة والاسم والمحتوية على (did not) فيما يتعلق بالجنس والحالة والتنكير والتعريف والضمائر الملحقة والتوافق بين الفعل والفاعل وعملية الإضافة والحذف بين اللغتين. ويزداد ذلك صعوبة إذا كانت اللغة الأصلية تحتوي على كلمات إضافية ليس لها وجود في اللغة الهدف مثلاً. وقد كانت بعض الأبحاث تركز على ترجمة في حقول معينة كالترجمة الآلية في حقل الزراعة وذلك لضمان دقة أفضل في الترجمة خاصة إذا كانت بحقل علمي ضيق.
5- نماذج لأبحاث ودراسات للترجمة الآلية إلى اللغة العربية (1 و4)
أجريت العديد من الأبحاث لتعزيز قابليات أنظمة الترجمة الآلية إلى اللغة العربية مثل اعتماد أنظمة الترجمة على ثلاث مجموعات من القواعد: التحليل النحوي والتحويل والتوليد. وأجريت تجارب على ترجمة لعدد محدود من الجمل من مجلة طبية متخصصة ومن ثم الحصول على دقة لا بأس بها، كما أجريت تجارب على عملية عكس تسلسل الأسماء مع صفاتها. وأجريت تجارب على تقسيم النص إلى جمل ثم تقسيم الجمل الطويلة إلى جمل قصيرة ثم تقسيمها إلى أجزائها من حروف جر وحروف عطف وغيرها وترتيب الجملة بشكل مصفوفة مناسبة لإعادة الترتيب بين الإنكليزية والعربية، ومن ثم تقسيم أجزاء الجمل إلى عبارات ومكونات العبارات من أسماء وأفعال وصفات وظروف، وبعد ذلك تكوين شجرة إعرابية للجملة الإنكليزية.
أما ما يتوافر في السوق من برامج، فقد قارنت بعض الدراسات بين الترجمات المختلفة المتوافرة في الأسواق كترجمة جوجل وبابلون، وتبين بأن ترجمة جوجل أفضل من ترجمة بابلون. كما قورنت أنظمة ترجمة جوجل وبابليون وسيستران وفق صفات لغوية وتبين بأن جوجل هو الأفضل، كما قورنت الترجمات عبر السنوات فوجد تحسن في هذه الترجمة بين 2006 و2016. وتعتبر الإنكليزية لغة وسيطة للترجمة من عدة لغات إلى العربية (كالروسية) حيث إن الترجمة من تلك اللغات (إلى الإنكليزية) قد بلغت دقة عالية ومن ثم تحتاج إلى تحسين الترجمة من الإنكليزية إلى العربية لترتقي بالترجمة من تلك اللغات إلى العربية بشكل غير مباشر. إن تحسين الترجمة إلى العربية لا يعتمد فقط على الحاسوبيين بل يعتمد على اللسانيين الذين يقع على عاتقهم وضع اللغة العربية بقوالب وقواعد حاسوبية تمهيداً لتضمينها في برامج الترجمة الآلية.
كما قامت بعض الأبحاث بجمع أكثر من 6000 جملة وتوزيعها عشوائياً على 50 محكماً بمعدل حوالي 250 جملة للمحكم الواحد لقياس التباين بين المترجمين وجرى تقييم 10 تقديمات يدوياً بمعدل حوالي 400 جملة، لذلك فإن حوالي 8000 جملة قيمت مرتين ومن ثم استخلص أن عملية التدريب أدت إلى تحسين النتائج لكن ليس بالمستوى المطلوب، حيث إن البيانات لم تكن كافية.
كما جمع باحثون آخرون مجموعة مقالات تحتوي على مئة ألف كلمة من المقالات الإخبارية الإنجليزية مأخوذة من الموقع الإلكتروني للصحافة التعاونية على الشابكة، وقد ضمت المجموعة خمسمئة وعشرين مقالة، بمعدل مئة واثنتين وتسعين كلمة لكل مقالة. ترجمت تلك المجموعة تلقائياً باستخدام خدمات جوجل المدفوعة الأجر للترجمة. وللحصول على نسخة منسقة بعد تحريرها من أخطاء الترجمة الآلية من قبل مجموعة المدققين، برزت الحاجة إلى إرشادات تصحيحية واضحة وموجزة. وقد وضع الباحثون الأخطاء المراد تصحيحها في فئات الأخطاء التالية: التدقيق الإملائي، واختيار الكلمات، وأصل الكلمات، والنحو، والأسماء الصحيحة، واستخدام اللهجات وعلامات الترقيم. وأوضح الباحثون في المبادئ التوجيهية، أنه ينبغي تصحيح النصوص المترجمة الآلية بأدنى عدد من التعديلات اللازمة لتحقيق جودة مقبولة للترجمة، وقد طلبوا من المدققين إيلاء الاهتمام إلى الجوانب الثلاثة التالية: الدقة والطلاقة والأسلوب، من أجل إنتاج نص متناسق. وقد أوضحت الأقسام التالية لهذا البحث إجراءات الشرح وإجراءات مراقبة الجودة باستخدام تدابير متكررة بين الشروح. وقد خلص البحث إلى أن هذه المنهجية المتعلقة بوضع المبادئ التوجيهية والتحقق من اتساق الشروح يمكن تطبيقها في مشاريع أخرى ولغات أخرى أيضاً. |
وفي بحث آخر جرى بناء ذخيرة لغوية بتحرير لاحق للترجمة الآلية العربية، استعرضت في البحث القواعد الإرشادية مع أسلوب التعليقات (annotation procedure) لتكوين ذخيرة لغوية يجري عليها تصحيح لاحق من البشر خاصة باللغة العربية القياسية الحديثة. وقد استخدم فريق عمل مكوّن من أشخاص جرى تدريبهم ثم قاموا بوضع هذه التعليقات. وكانت هذه الذخيرة جزءاً من بنك قطر للغة العربية الذي هو مشروع ضخم لعمل التعليقات اليدوية. وهدف هذا المشروع هو تكوين ذخيرة تحوي مليوني كلمة للمستخدمين عبر الشابكة لجمع ملاحظاتهم على مواقع الأخبار وغيرها. وقد اختير في تلك المرحلة جزء مقداره مئة ألف كلمة بهدف الترجمة الآلية من مختلف المواقع الإخبارية الإنكليزية المترجمة للعربية باستعمال ترجمة جوجل بوصفها مرحلة أولى.
وفي بحث آخر عن تمييز الكلام المحكي باللغة العربية العاميّة من خلال تحويله إلى اللغة العربية المعاصرة لتتم ترجمته بعد ذلك إلى الإنجليزية؛ سُجّلت المدخلات من قناة تلفزيونية. إن سماع الكلام المحكي وتحويله إلى نص مكتوب ثم ترجمته هما عمليتان منفصلتان، وعندما يكون هناك خطأ في تحويل الكلام إلى نص فستكون الترجمة خاطئة. وقد استخدم في الترجمة الآلية الاعتماد على القواعد التي تساهم في تصحيح الأخطاء باستخدام معلومات دلالية.
6- واقع أنظمة الترجمة الآلية العربية
سنقارن بين ثلاثة أنظمة للترجمة الآلية، هي جوجل وسيستران وبينغ، باستعمال مواقعها على الشابكة. وقد اخترنا جملة عربية لترجمتها ومقارنة ترجماتها إلى الإنكليزية. ثم ترجمنا جملة عربية إلى الإنكليزية وأدخلت تلك الترجمة للأنظمة الثلاثة للحصول على الترجمة العربية. وقد أعيدت التجربة مرتين في شهري أيلول (أشير لها بالرمز (*)) وكانون الأول (أشير لها بالرمز (**)) من عام 2014. ثم أعيدت التجربة في تشرين الأول 2018 (أشير لها بالرمز (***)) ويلاحظ حدوث اختلاف في كل الترجمات من الإنكليزية إلى العربية في المواقع الثلاثة، بينما الترجمة من العربية إلى الإنكليزية اختلفت في ترجمة جوجل وبقيت نفسها في سيستران وبينغ. ويلاحظ عدم الدقة والركاكة في الترجمات الآلية كلها تقريباً. كما يلاحظ أن الترجمة قد تختلف بمضي الزمن.
حصل تقدم هائل للترجمة الآلية خلال السنوات الماضية خاصة بين اللغات الأوربية ذات الأصول اللاتينية لما بينها من مشتركات | النص الأصلي بالعربية |
Got tremendous progress of the translation mechanism during the past years, especially among European languages with Latinos because of the participants, including (*) Progress has been made tremendous machine translation during the past years, especiallyamong European languages with Latin asset to them from participants(**) There has been tremendous progress in machine translation over the past years, especially among European languages with Latin origins, among them participants(***) | ترجمة جوجل إلى الإنكليزية |
Huge progress for the automatic translation during the last years collected especially between the European languages self of the Latin origins for what between her from joint (*) & (**) & (***) | ترجمة سيستران إلى الإنكليزية |
Advances of machine translation over the past years, especially between the European languages with Latin origins to their subscribers (*) & (**) Huge progress of automatic translation through the years, especially among European languages Latin origins to their subscribers (***) | ترجمة بينغ إلى الإنكليزية |
A tremendous progress occurred during recent years between European languages due to their common Latin origin. | ترجمة النص بالإنكليزية |
حدث تقدم هائل خلال السنوات الأخيرة بين اللغات الأوروبية بسبب الأصل اللاتيني المشترك (*) & (***) حدث هناك تقدم هائل خلال السنوات الأخيرة بين اللغات الأوروبية بسبب الأصل اللاتيني المشترك (**) | ترجمة جوجل إلى العربية |
تقدم هائل وقع أثناء سنوات الأخيرة بين لغات أوربيّ واجب إلى أصلهم لاتيني عادي (*) تقدم هائل وقع أثناء سنوات الأخيرة بين لغة أوربيّ واجب إلى أصلهم عاديّ لاتينيّ (**) و(***) | ترجمة سيستران إلى العربية |
التقدم هائل الذي حدث خلال السنوات الأخيرة بين اللغات الأوروبية بسبب أصلها اللاتيني الشائعة (*) & (***) التقدم هائل الذي حدث خلال السنوات الأخيرة بين اللغات الأوروبية بسبب أصلهم اللاتينية الشائعة (**) | ترجمة بينغ إلى العربية |
يلاحظ الخطأ في التمييز بين المذكر والمؤنث في الترجمة من الإنكليزية إلى العربية في ترجمتي سيستران وبينغ، بينما ترجمة جوجل عانت في مرحلة ما من الخطأ بين الرفع والنصب.
أما الترجمة من العربية إلى الإنكليزية فيلاحظ أن ترجمة سيستران لم يلاحظ عليها تغير مع الزمن إذ كانت الترجمات الثلاثة نفسها، بينما كان هناك بعض التحسن في ترجمة بينغ مع الزمن، وكذلك ترجمة جوجل التي كانت أفضل الأنظمة الثلاثة. لكن يلاحظ أن الترجمات الثلاثة تعاني من ركاكة في التعبير وعدم دقة في تبيان المقصود.
7- متطلبات تطوير الترجمة الآلية من اللغة العربية وإليها
7-1- المحللات اللغوية العربية (Arabic Parsers)
إنّ مُحلل اللغة الطبيعية هو برنامج يقوم بعملية تشبه عملية إعراب الجملة نحوياً حيث يمكنه أن يفهم أجزاء الجملة ويساعد في الترجمة باستخدام الترجمة الآلية، وقد قام العديد من الباحثين بدراسة هذا النوع من المحلّلات. وهناك حاجة للمزيد من البحث في هذا المجال.
7-2- المحللات الصّرفية (Morphological Analyzer)
يعتبر الغموض الصّرفي مصدر قلق بالنّسبة للمحللات النّحوية، وغيرها من أدوات معالجة اللغات الطبيعية. ويعطي التّحليل الصّرفي معلومات أدق حول أجزاء الكلام بحيث يختار التّحليل الأنسب لها بشكل يتوافق مع السّياق.
7-3- المُحلّلات الدّلالية
المسألة الأساسية التي يجب أن تُعالِجها أنظمة التّرجمة الآلية هي فك الغموض الذي يكتنف كثيراً من التعابير في اللغة المصدر وتحويلها إلى جمل واضحة ومفهومة بلغة الهدف. تعتبر الأنطولوجيا هي الطريقة الملائمة للقيام بكلّ ذلك بوضع مواصفات صريحة للمفاهيم.
7-4- إعادة ترتيب الجملة (خوارزميات التصحيح)
يجب أن تضمن التّرجمة الآلية دقّة ترجمة اللغة المستهدفة، سواء من العربية أو إليها. لذلك، في كلتا الحالتين، يجب التحقق من تركيب الجملة. فاللغة العربية تتضمن تراكيب مختلفة، مثلاً بحيث يحل الاستبدال التلقائي محل الجناس اللفظي وترجمته النسبية وفقاً للسياق.
8- خاتمة
إن مسألة الترجمة الآلية من اللغة العربية وإليها لم تحل لحد الآن، فهناك حاجة للكثير من البحث العلمي في هذا المجال لكسب الطمأنينة للوصول إلى مستوى من الترجمة يقترب من الترجمة من قبل مترجمين من البشر. إن الحاجة إلى ترجمة أسرع وأرخص بين اللغات ستتعزز فقط بالمشاركة بين المعلومات بين الأمم. واستناداً إلى ذلك نقترح ما يأتي:
هناك حاجة لاستعمال كمية كبيرة من الذخيرة اللغوية (corpus) المتوازية (بلغتين أو أكثر) لغرض تدريب الترجمة الإحصائية للحصول على نتائج أفضل. وهو ما لا يتوافر الآن بين اللغتين الإنكليزية والعربية، حيث يجب استعمال كمية كبيرة من البيانات في كل حقل من حقول البيانات المراد الترجمة فيه. وكلما قمنا بتوليف (tuning) النموذج بشكل أفضل كانت النتائج أفضل، لذلك يجب القيام بعملية التوليف بقدر الاستطاعة. كما يجب استعمال بيانات الفحص في حقل المعلومات المراد الترجمة فيه نفسه للحصول على نتائج أفضل. إن التكامل مع وسائل أخرى للترجمة الآلية مثل الشبكات العصبية الذكية (artificial neural networks) في عملية التعلم وعملية التدريب للحصول على نتائج أفضل -ضروري ويجب الاستمرار في البحث فيه.
كما أن من الضروري العمل على المعجم العربي الإلكتروني التشابكي بما يشبه (wordnet) حيث إن ذلك في غاية الضرورة، وما يتوافر باللغة العربية (AWordnet) لا يعتبر كافياً البتة.
هناك بالطبع حاجة إلى المزيد من الأبحاث في مجالات الصرف والنحو والأنطولوجيا وتركيب الجملة العربية.