يعمل التعلم الآلي على تحسين إمكانات نسخ الكلام باللغة العربية

مقدمة من مؤسسة قطر



أعلى بطارية كثافة الطاقة

بفضل التقدم في معالجة الكلام واللغة الطبيعية ، هناك أمل في أن تتمكن يومًا ما من سؤال مساعدك الافتراضي عن أفضل مكونات السلطة. في الوقت الحالي ، من الممكن أن تطلب من جهازك المنزلي تشغيل الموسيقى ، أو فتحه بأمر صوتي ، وهي ميزة موجودة بالفعل في بعض الأجهزة.





إذا كنت تتحدث المغربية أو الجزائرية أو المصرية أو السودانية أو أي من اللهجات الأخرى للغة العربية ، والتي تتنوع بشكل كبير من منطقة إلى أخرى ، حيث يكون بعضها غير مفهومة بشكل متبادل ، فهذه قصة مختلفة. إذا كانت لغتك الأم هي العربية أو الفنلندية أو المنغولية أو النافاجو أو أي لغة أخرى ذات مستوى عالٍ من التعقيد الصرفي ، فقد تشعر بالإهمال.

أثارت هذه التركيبات المعقدة فضول أحمد علي لإيجاد حل. وهو مهندس رئيسي في مجموعة تقنيات اللغة العربية في معهد قطر لبحوث الحوسبة (QCRI) - وهو جزء من جامعة حمد بن خليفة التابعة لمؤسسة قطر ومؤسس ArabicSpeech ، وهو مجتمع موجود لصالح علوم الكلام وتقنيات الكلام باللغة العربية.

مقر مؤسسة قطر



أصبح علي مفتونًا بفكرة التحدث إلى السيارات والأجهزة والأدوات منذ عدة سنوات أثناء وجوده في شركة IBM. هل يمكننا بناء آلة قادرة على فهم اللهجات المختلفة - طبيب أطفال مصري لأتمتة وصفة طبية ، أو مدرس سوري لمساعدة الأطفال في الحصول على الأجزاء الأساسية من درسهم ، أو طاهٍ مغربي يصف أفضل وصفة للكسكس؟ يصرح. ومع ذلك ، فإن الخوارزميات التي تشغل هذه الآلات لا يمكنها غربلة ما يقرب من 30 نوعًا من اللغة العربية ، ناهيك عن فهمها. اليوم ، تعمل معظم أدوات التعرف على الكلام فقط باللغة الإنجليزية وحفنة من اللغات الأخرى.

لقد أدى جائحة الفيروس التاجي إلى زيادة الاعتماد المكثف بالفعل على تقنيات الصوت ، حيث ساعدت الطريقة التي تساعد بها تقنيات معالجة اللغة الطبيعية الناس على الامتثال لإرشادات البقاء في المنزل وإجراءات التباعد الجسدي. ومع ذلك ، بينما كنا نستخدم الأوامر الصوتية للمساعدة في مشتريات التجارة الإلكترونية وإدارة منازلنا ، فإن المستقبل يحمل المزيد من التطبيقات.

يستخدم ملايين الأشخاص في جميع أنحاء العالم الدورات التدريبية المفتوحة على الإنترنت (MOOC) للوصول المفتوح والمشاركة غير المحدودة. يعد التعرف على الكلام أحد الميزات الرئيسية في MOOC ، حيث يمكن للطلاب البحث في مناطق محددة في المحتويات المنطوقة للدورات التدريبية وتمكين الترجمات عبر الترجمة. تتيح تقنية الكلام رقمنة المحاضرات لعرض الكلمات المنطوقة كنص في الفصول الدراسية بالجامعة.

Ahmed Ali, Hamad Bin Kahlifa University



وفقًا لمقال نُشر مؤخرًا في مجلة Speech Technology ، من المتوقع أن يصل سوق التعرف على الصوت والكلام إلى 26.8 مليار دولار بحلول عام 2025 ، حيث أصبح ملايين المستهلكين والشركات حول العالم يعتمدون على الروبوتات الصوتية ليس فقط للتفاعل مع أجهزتهم أو سياراتهم ولكن أيضًا لتحسين خدمة العملاء ، ودفع ابتكارات الرعاية الصحية ، وتحسين إمكانية الوصول والشمول لمن يعانون من إعاقات في السمع أو الكلام أو الحركة.

في استطلاع عام 2019 ، توقع Capgemini أنه بحلول عام 2022 ، سيختار أكثر من اثنين من كل ثلاثة مستهلكين المساعدين الصوتيين بدلاً من زيارة المتاجر أو فروع البنوك ؛ حصة يمكن أن ترتفع بشكل مبرر ، بالنظر إلى الحياة المنزلية البعيدة جسديًا والتجارة التي فرضها الوباء على العالم لأكثر من عام ونصف.

ومع ذلك ، فشلت هذه الأجهزة في الوصول إلى مساحات شاسعة من العالم. بالنسبة لأولئك الثلاثين نوعًا من اللغة العربية والملايين من الأشخاص ، فهذه فرصة ضائعة إلى حد كبير.

العربية للآلات

الروبوتات الصوتية الناطقة باللغة الإنجليزية أو الفرنسية بعيدة كل البعد عن الكمال. ومع ذلك ، فإن تعليم الآلات لفهم اللغة العربية صعب بشكل خاص لعدة أسباب. هذه ثلاثة تحديات معروفة بشكل عام:

  1. عدم وجود علامات التشكيل. اللهجات العربية هي اللهجات العامية ، كما هو الحال في اللغة المنطوقة في المقام الأول. معظم النص المتاح غير مكتوب ، مما يعني أنه يفتقر إلى اللهجات مثل الحادة (´) أو الجبر (`) التي تشير إلى القيم الصوتية للأحرف. لذلك ، من الصعب تحديد أين تذهب حروف العلة.
  2. قلة الموارد. هناك ندرة في البيانات المصنفة الخاصة باللهجات العربية المختلفة. بشكل جماعي ، يفتقرون إلى القواعد الإملائية الموحدة التي تملي كيفية كتابة لغة ، بما في ذلك القواعد أو التهجئة ، والواصلة ، وفواصل الكلمات ، والتأكيد. هذه الموارد ضرورية لتدريب نماذج الكمبيوتر ، وحقيقة أن هناك القليل منها أعاقت تطوير التعرف على الكلام العربي.
  3. التعقيد الصرفي. ينخرط المتحدثون باللغة العربية في الكثير من عمليات تبديل الشفرة. على سبيل المثال ، في المناطق التي استعمرها الفرنسيون - شمال إفريقيا والمغرب والجزائر وتونس - تشتمل اللهجات على العديد من الكلمات الفرنسية المستعارة. وبالتالي ، هناك عدد كبير مما يسمى الكلمات خارج المفردات ، والتي لا تستطيع تقنيات التعرف على الكلام فهمها لأن هذه الكلمات ليست عربية.

يقول علي إن المجال يتحرك بسرعة البرق. إنه جهد تعاوني بين العديد من الباحثين لجعله يتحرك بشكل أسرع. يقود مختبر تكنولوجيا اللغة العربية التابع لعلي مشروع الخطاب العربي للجمع بين الترجمات العربية واللهجات الأصلية لكل منطقة. على سبيل المثال ، يمكن تقسيم اللهجات العربية إلى أربع لهجات إقليمية: شمال إفريقيا ، والمصرية ، والخليجية ، والشامية. ومع ذلك ، نظرًا لأن اللهجات لا تتوافق مع الحدود ، يمكن أن يكون هذا دقيقًا مثل اللهجة الواحدة لكل مدينة ؛ على سبيل المثال ، يمكن للمتحدث المصري الأصلي التفريق بين لهجة الإسكندرية الخاصة به من مواطنه من أسوان (مسافة 1000 كيلومتر على الخريطة).

بناء مستقبل يتمتع بالدهاء التكنولوجي للجميع

في هذه المرحلة ، تكون الآلات دقيقة تمامًا مثل الناسخات البشرية ، ويرجع الفضل في ذلك إلى حد كبير إلى التقدم في الشبكات العصبية العميقة ، وهو حقل فرعي من التعلم الآلي في الذكاء الاصطناعي الذي يعتمد على خوارزميات مستوحاة من كيفية عمل الدماغ البشري ، بيولوجيًا ووظيفيًا. ومع ذلك ، حتى وقت قريب ، تم اختراق التعرف على الكلام قليلاً معًا. التكنولوجيا لها تاريخ في الاعتماد على وحدات مختلفة للنمذجة الصوتية ، وبناء معاجم النطق ، ونمذجة اللغة. جميع الوحدات التي تحتاج إلى تدريب بشكل منفصل. في الآونة الأخيرة ، قام الباحثون بتدريب النماذج التي تحول الميزات الصوتية مباشرة إلى نسخ نصية ، مما يحتمل تحسين جميع الأجزاء للمهمة النهائية.

حتى مع هذه التطورات ، لا يزال علي غير قادر على إعطاء أوامر صوتية لمعظم الأجهزة بلغته الأم العربية. إنه عام 2021 ، وما زلت لا أستطيع التحدث إلى العديد من الآلات بلهجتي ، كما يعلق. أعني ، الآن لدي جهاز يمكنه فهم لغتي الإنجليزية ، لكن التعرف الآلي على الكلام العربي متعدد اللهجات لم يحدث بعد.

المواد التي تعكس الضوء

إن تحقيق ذلك هو محور عمل علي ، الذي بلغ ذروته في أول محول للتعرف على الكلام العربي ولهجاته ؛ الذي حقق أداءً لا مثيل له حتى الآن. هذه التقنية التي يطلق عليها نظام النسخ المتقدم QCRI ، يتم استخدامها حاليًا من قبل مذيعي الجزيرة و DW و BBC لنسخ المحتوى عبر الإنترنت.

هناك عدة أسباب لنجاح علي وفريقه في بناء محركات الكلام هذه في الوقت الحالي. في المقام الأول ، كما يقول ، هناك حاجة إلى الحصول على الموارد عبر جميع اللهجات. نحن بحاجة إلى بناء الموارد حتى نتمكن بعد ذلك من تدريب النموذج. يعني التقدم في معالجة الكمبيوتر أن التعلم الآلي المكثف حسابيًا يحدث الآن في وحدة معالجة الرسومات ، والتي يمكنها معالجة الرسومات المعقدة وعرضها بسرعة. كما يقول علي ، لدينا بنية رائعة ووحدات نمطية جيدة ولدينا بيانات تمثل الواقع.

قام باحثون من معهد قطر لبحوث الحوسبة وكاناري للذكاء الاصطناعي مؤخرًا ببناء نماذج يمكنها تحقيق التكافؤ البشري في بث الأخبار العربية. يوضح النظام تأثير ترجمة تقارير الجزيرة اليومية على الشاشة. في حين أن معدل الخطأ البشري في اللغة الإنجليزية (HER) يبلغ حوالي 5.6٪ ، أظهر البحث أن اللغة العربية HER أعلى بشكل ملحوظ ويمكن أن تصل إلى 10٪ بسبب التعقيد المورفولوجي في اللغة وعدم وجود قواعد إملائية قياسية في اللهجة العربية. بفضل التطورات الحديثة في التعلم العميق والهندسة الشاملة ، تمكن محرك التعرف على الكلام العربي من التفوق على المتحدثين الأصليين في بث الأخبار.

بينما يبدو أن التعرف على الكلام باللغة العربية القياسية الحديثة يعمل بشكل جيد ، فإن باحثين من QCRI و Kanari AI منهمكون في اختبار حدود المعالجة اللهجة وتحقيق نتائج رائعة. نظرًا لعدم وجود أحد يتحدث العربية الفصحى الحديثة في المنزل ، فإن الاهتمام باللهجة هو ما نحتاجه لتمكين مساعدي الصوت لدينا من فهمنا.

تمت كتابة هذا المحتوى بواسطة معهد قطر لبحوث الحوسبة جامعة حمد بن خليفة عضو مؤسسة قطر. لم يكتبه فريق التحرير في MIT Technology Review.

يخفي

التقنيات الفعلية

فئة

غير مصنف

تكنولوجيا

التكنولوجيا الحيوية

سياسة التكنولوجيا

تغير المناخ

البشر والتكنولوجيا

وادي السيليكون

الحوسبة

مجلة Mit News

الذكاء الاصطناعي

الفراغ

المدن الذكية

بلوكشين

قصة مميزة

الملف الشخصي للخريجين

اتصال الخريجين

ميزة أخبار معهد ماساتشوستس للتكنولوجيا

1865

وجهة نظري

77 Mass Ave

قابل المؤلف

ملامح في الكرم

شوهد في الحرم الجامعي

خطابات الخريجين

أخبار

انتخابات 2020

فهرس With

تحت القبه

خرطوم الحريق

قصص لانهائية

مشروع تكنولوجيا الوباء

من الرئيس

غلاف القصه

معرض الصور

موصى به