يريد Facebook من الآلات أن ترى العالم من خلال أعيننا

استعراض تكنولوجيا معهد ماساتشوستس للتكنولوجيا | إنفاتو



نحن نعتبر أنه من المسلم به أن الآلات يمكنها التعرف على ما تراه في الصور ومقاطع الفيديو. هذه القدرة تعتمد على مجموعات البيانات الكبيرة مثل ImageNet ، عبارة عن مجموعة منسقة يدويًا من ملايين الصور المستخدمة لتدريب معظم أفضل نماذج التعرف على الصور في العقد الماضي.

لكن الصور الموجودة في مجموعات البيانات هذه تصور عالمًا من الكائنات المنسقة - معرض صور لا يلتقط فوضى الحياة اليومية كما يختبرها البشر. جعل الآلات ترى الأشياء كما نفعل سوف يتخذ نهجًا جديدًا تمامًا. ويريد مختبر الذكاء الاصطناعي في Facebook أن يأخذ زمام المبادرة.





إنه إطلاق مشروع يسمى Ego4D ، لبناء أنظمة ذكاء اصطناعي يمكنها فهم المشاهد والأنشطة التي يتم عرضها من منظور الشخص الأول - كيف تبدو الأشياء للأشخاص المعنيين ، بدلاً من المتفرج. فكر في لقطات GoPro غير الواضحة بالحركة التي تم التقاطها في غمرة الحركة ، بدلاً من المشاهد ذات الإطارات الجيدة التي التقطها شخص ما على الهامش. يريد Facebook أن يقوم Ego4D بعمل فيديو الشخص الأول كما فعلته ImageNet للصور.

لماذا يستخدم Facebook Ray-Ban لتقديم مطالبة على وجوهنا

لبناء metaverse ، يحتاجنا Facebook إلى التعود على النظارات الذكية.

على مدار العامين الماضيين ، عملت Facebook AI Research (FAIR) مع 13 جامعة حول العالم لتجميع أكبر مجموعة بيانات على الإطلاق لفيديو الشخص الأول - تحديدًا لتدريب نماذج التعرف على الصور ذات التعلم العميق. ستكون أنظمة الذكاء الاصطناعي المدربة على مجموعة البيانات أفضل في التحكم في الروبوتات التي تتفاعل مع الأشخاص ، أو تفسير الصور من النظارات الذكية. لن تتمكن الآلات من مساعدتنا في حياتنا اليومية إلا إذا فهمت العالم حقًا من خلال أعيننا ، كما تقول كريستين غرومان من FAIR ، التي تقود المشروع.



أفضل اختبارات الحمض النووي 2017

يمكن أن تدعم هذه التقنية الأشخاص الذين يحتاجون إلى المساعدة في جميع أنحاء المنزل ، أو توجه الأشخاص في المهام التي يتعلمون إكمالها. يقول مايكل ريو ، باحث الرؤية الحاسوبية في Google Brain وجامعة Stony Brook في نيويورك ، والذي لا يشارك في Ego4D ، إن الفيديو في مجموعة البيانات هذه أقرب بكثير إلى كيفية مراقبة البشر للعالم.

لكن إساءة الاستخدام المحتملة واضحة ومقلقة. تم تمويل البحث من قبل Facebook ، عملاق وسائل التواصل الاجتماعي الذي اتُهم مؤخرًا في مجلس الشيوخ الأمريكي وضع الأرباح على رفاهية الناس —كما أكدته MIT Technology Review's التحقيقات الخاصة .

يتمثل نموذج الأعمال الخاص بـ Facebook وشركات التكنولوجيا الكبرى الأخرى في استخراج أكبر قدر ممكن من البيانات من سلوك الأشخاص عبر الإنترنت وبيعها للمعلنين. يمكن أن يوسع الذكاء الاصطناعي الموضح في المشروع هذا الوصول إلى سلوك الأشخاص اليومي في وضع عدم الاتصال ، ويكشف عن الأشياء الموجودة حول منزلك ، والأنشطة التي استمتعت بها ، والأشخاص الذين قضيت وقتًا معهم ، وحتى أين بقيت نظرتك - درجة غير مسبوقة من المعلومات الشخصية.

يقول غرومان إن هناك عملًا يجب القيام به بشأن الخصوصية أثناء إخراج هذا من عالم البحث الاستكشافي إلى شيء ما هو منتج. يمكن حتى أن يكون هذا العمل مستوحى من هذا المشروع.



موقع التواصل الاجتماعي الفيسبوك

تتكون أكبر مجموعة بيانات سابقة لفيديو الشخص الأول من 100 ساعة من لقطات لأشخاص في المطبخ. تتكون مجموعة بيانات Ego4D من 3025 ساعة من الفيديو سجلها 855 شخصًا في 73 موقعًا مختلفًا في تسع دول (الولايات المتحدة والمملكة المتحدة والهند واليابان وإيطاليا وسنغافورة والمملكة العربية السعودية وكولومبيا ورواندا).

كان المشاركون من مختلف الأعمار والخلفيات. تم تجنيد البعض لمهنهم المثيرة للاهتمام بصريًا ، مثل الخبازين والميكانيكيين والنجارين وتنسيق الحدائق.

تتكون مجموعات البيانات السابقة عادةً من مقاطع فيديو نصف نصية مدتها بضع ثوانٍ فقط. بالنسبة إلى Ego4D ، ارتدى المشاركون كاميرات مثبتة على الرأس لمدة تصل إلى 10 ساعات في المرة الواحدة والتقطوا فيديو من منظور الشخص الأول للأنشطة اليومية غير المسجلة ، بما في ذلك المشي على طول الشارع والقراءة والغسيل والتسوق واللعب مع الحيوانات الأليفة ولعب ألعاب الطاولة و التفاعل مع الآخرين. تتضمن بعض اللقطات أيضًا صوتًا وبيانات حول مكان تركيز نظرة المشاركين ، ووجهات نظر متعددة في نفس المشهد. يقول ريوو إنها أول مجموعة بيانات من نوعها.

أطلقت FAIR أيضًا مجموعة من التحديات التي تأمل أن تركز جهود الباحثين الآخرين على تطوير هذا النوع من الذكاء الاصطناعي. يتوقع الفريق وجود خوارزميات مدمجة في النظارات الذكية ، مثل تم الإعلان عن Ray-Bans من Facebook مؤخرًا ، التي تسجل وتسجيل الحياة اليومية لمرتديها. هذا يعني أن تطبيقات الواقع المعزز أو الواقع الافتراضي يمكنها ، نظريًا ، الإجابة على أسئلة مثل أين مفاتيح سيارتي؟ أو ماذا أكلت ومن جلست بجانبه في رحلتي الأولى إلى فرنسا؟ يمكن لمساعدي الواقع المعزز فهم ما تحاول القيام به وتقديم الإرشادات أو الإشارات الاجتماعية المفيدة.

كيف سأموت الاختبار

يقول غرومان إنها مواد خيال علمي ، لكنها أقرب مما تعتقد. مجموعات البيانات الكبيرة تسرع البحث. لقد قادت ImageNet بعض التقدم الكبير في وقت قصير ، كما تقول. يمكننا أن نتوقع الشيء نفسه بالنسبة إلى Ego4D ، ولكن بالنسبة لوجهات نظر الشخص الأول للعالم بدلاً من صور الإنترنت.

بمجرد جمع اللقطات ، أمضى عمال التعهيد الجماعي في رواندا ما مجموعه 250.000 ساعة في مشاهدة آلاف مقاطع الفيديو وكتابة ملايين الجمل التي تصف المشاهد والأنشطة التي تم تصويرها. سيتم استخدام هذه التعليقات التوضيحية لتدريب الذكاء الاصطناعي على فهم ما يشاهدونه.

تعمل مجموعات البيانات المليئة بالأخطاء على تشويه إحساسنا بمدى جودة الذكاء الاصطناعي حقًا

تم تلوين فهمنا للتقدم في التعلم الآلي من خلال بيانات الاختبار المعيبة.

يبقى أن نرى أين تنتهي هذه التقنية ومدى سرعة تطورها. تخطط FAIR لمسابقة بناءً على تحدياتها في يونيو 2022. من المهم أيضًا ملاحظة أن FAIR ، مختبر الأبحاث ، ليس مثل Facebook ، ميغالودون ميديا. في الواقع ، يقول المطلعون ذلك تجاهل Facebook الإصلاحات الفنية التي توصلت إليها FAIR لخوارزمياتها السامة . لكن Facebook يدفع مقابل البحث ، ومن المخادع التظاهر بأن الشركة ليست مهتمة جدًا بتطبيقه.

يقول Sam Gregory at Witness ، وهي منظمة لحقوق الإنسان متخصصة في تكنولوجيا الفيديو ، إن هذه التكنولوجيا يمكن أن تكون مفيدة للمارة الذين يوثقون الاحتجاجات أو انتهاكات الشرطة. لكنه يعتقد أن هذه الفوائد تفوقها المخاوف المتعلقة بالتطبيقات التجارية. ويشير إلى أنه من الممكن التعرف على الأفراد من خلال طريقة حملهم لكاميرا الفيديو. قد تكون بيانات النظرة أكثر وضوحًا: فهي مؤشر قوي جدًا على الاهتمام ، كما يقول. كيف سيتم تخزين بيانات النظرة؟ من سيكون في متناول؟ كيف يمكن معالجتها واستخدامها؟

يقول روري مير من مؤسسة Electronic Frontier Foundation ، إن سمعة Facebook ونموذج العمل الأساسي لهما يدقان الكثير من أجراس الإنذار. في هذه المرحلة ، يدرك الكثيرون سجل التتبع السيئ لفيسبوك فيما يتعلق بالخصوصية ، واستخدامهم للمراقبة للتأثير على المستخدمين - سواء لإبقاء المستخدمين مرتبطين أو لبيع هذا التأثير لعملائهم الذين يدفعون ، أي المعلنين. عندما يتعلق الأمر بالواقع المعزز والافتراضي ، يسعى Facebook إلى الحصول على ميزة تنافسية ، كما يقول Mir: من الضروري توسيع كمية وأنواع البيانات التي يجمعها.

عندما سُئل فيسبوك عن خططه ، لم يكن مفاجئًا: إن Ego4D هو بحث بحت لتعزيز التقدم في المجتمع العلمي الأوسع ، كما يقول متحدث باسمها. ليس لدينا أي شيء نشاركه اليوم حول تطبيقات المنتجات أو الاستخدام التجاري.

يخفي

التقنيات الفعلية

فئة

غير مصنف

تكنولوجيا

التكنولوجيا الحيوية

سياسة التكنولوجيا

تغير المناخ

البشر والتكنولوجيا

وادي السيليكون

الحوسبة

مجلة Mit News

الذكاء الاصطناعي

الفراغ

المدن الذكية

بلوكشين

قصة مميزة

الملف الشخصي للخريجين

اتصال الخريجين

ميزة أخبار معهد ماساتشوستس للتكنولوجيا

1865

وجهة نظري

77 Mass Ave

قابل المؤلف

ملامح في الكرم

شوهد في الحرم الجامعي

خطابات الخريجين

أخبار

انتخابات 2020

فهرس With

تحت القبه

خرطوم الحريق

قصص لانهائية

مشروع تكنولوجيا الوباء

من الرئيس

غلاف القصه

معرض الصور

موصى به