حذف مجموعات البيانات غير الأخلاقية ليس بالقدر الكافي

وجوه من مجموعات بيانات AI

السيدة تك | بيكساباي



في عام 2016 ، على أمل تحفيز التقدم في التعرف على الوجه ، أصدرت Microsoft أكبر قاعدة بيانات للوجه في العالم. المسمى MS-Celeb-1M ، كان يحتوي على 10 ملايين صورة لـ 100،000 وجه من المشاهير. تم تعريف المشاهير بشكل فضفاض ، على الرغم من ذلك.

بعد ثلاث سنوات ، الباحثان آدم هارفي وجول لابلاس جابت مجموعة البيانات ووجدت العديد من الأفراد العاديين ، مثل الصحفيين والفنانين والنشطاء والأكاديميين ، الذين يحتفظون بوجودهم عبر الإنترنت طوال حياتهم المهنية. لم يوافق أي منهم على الإدراج ، ومع ذلك وجدت وجوههم طريقها إلى قاعدة البيانات وما بعدها ؛ تم إجراء البحث باستخدام مجموعة الوجوه من قبل شركات بما في ذلك Facebook و IBM و Baidu و SenseTime ، وهي واحدة من أكبر عمالقة التعرف على الوجه في الصين ، والتي تبيع تقنيتها للشرطة الصينية.





بعد وقت قصير من تحقيق هارفي ولابلاس ، وبعد الاستلام انتقادات من الصحفيين ، أزالت Microsoft مجموعة البيانات ، قائلة ببساطة: لقد انتهى التحدي البحثي. لكن مخاوف الخصوصية التي خلقتها باقية في الإنترنت إلى الأبد. وهذه الحالة ليست الوحيدة.

الوقت بالنسبة للسرعة

كان تجريف الويب بحثًا عن الصور والنصوص يعتبر في يوم من الأيام استراتيجية مبتكرة لجمع بيانات العالم الحقيقي. الآن ، جعلت قوانين مثل GDPR (لائحة حماية البيانات في أوروبا) والقلق العام المتزايد بشأن خصوصية البيانات والمراقبة هذه الممارسة محفوفة بالمخاطر من الناحية القانونية وغير لائقة. نتيجة لذلك ، تراجع باحثو الذكاء الاصطناعي بشكل متزايد عن مجموعات البيانات التي أنشأوها بهذه الطريقة.

ولكن دراسة جديدة يوضح أن هذا لم يفعل الكثير لمنع البيانات الإشكالية من التكاثر واستخدامها. اختار المؤلفون ثلاثة من مجموعات البيانات الأكثر شيوعًا التي تحتوي على وجوه أو أشخاص ، تم سحب اثنتين منها ؛ قاموا بتتبع الطرق التي تم نسخ كل منها ، واستخدامها ، وإعادة توظيفها في ما يقرب من 1000 ورقة.



في حالة MS-Celeb-1M ، لا تزال النسخ موجودة على مواقع الجهات الخارجية وفي مجموعات بيانات مشتقة مبنية فوق الأصل. تظل النماذج مفتوحة المصدر المدربة مسبقًا على البيانات متاحة بسهولة أيضًا. كما تم الاستشهاد بمجموعة البيانات ومشتقاتها في مئات الأوراق التي نُشرت بين ستة و 18 شهرًا بعد سحبها.

DukeMTMC ، وهي مجموعة بيانات تحتوي على صور لأشخاص يمشون في حرم جامعة ديوك وتراجعوا في نفس الشهر مثل MS-Celeb-1M ، لا تزال موجودة بالمثل في مجموعات البيانات المشتقة ومئات الاستشهادات الورقية.

التكنولوجيا الجديدة للعلوم

يقول كيني بينج ، طالب السنة الثانية في جامعة برينستون وأحد مؤلفي الدراسة ، إن قائمة الأماكن التي تظل فيها البيانات أكثر شمولاً مما كنا نعتقد في البداية. وحتى هذا ، كما يقول ، ربما يكون أقل من الواقع ، لأن الاستشهادات في الأوراق البحثية لا تمثل دائمًا الطرق التي يمكن بها استخدام البيانات تجاريًا.

ذهب البرية

جزء من المشكلة ، وفقًا لورقة برينستون ، هو أن أولئك الذين يجمعون مجموعات البيانات معًا يفقدون بسرعة السيطرة على إبداعاتهم.



يمكن بسرعة اختيار مجموعات البيانات التي تم إصدارها لغرض واحد للآخرين التي لم يقصدها أو يتخيلها المبدعون الأصليون. وجد المؤلفون أن MS-Celeb-1M ، على سبيل المثال ، كان يهدف إلى تحسين التعرف على وجوه المشاهير ، لكنه استخدم منذ ذلك الحين لمزيد من التعرف على الوجه العام وتحليل ميزات الوجه. كما تمت إعادة تسميتها أو إعادة معالجتها في مجموعات بيانات مشتقة مثل Racial Faces in the Wild ، والتي تجمع صورها حسب العرق ، مما يفتح الباب أمام التطبيقات المثيرة للجدل.

هكذا فقدنا السيطرة على وجوهنا

تُظهر أكبر دراسة على الإطلاق لبيانات التعرف على الوجه إلى أي مدى أدى ظهور التعلم العميق إلى فقدان الخصوصية.

يشير تحليل الباحثين أيضًا إلى أن Labeled Faces in the Wild (LFW) ، وهي مجموعة بيانات تم تقديمها في عام 2007 وأول من استخدم صور وجه مقشوطة من الانترنت ، قد تغير عدة مرات خلال ما يقرب من 15 عامًا من الاستخدام. في حين أنه بدأ كمورد لتقييم نماذج التعرف على الوجه للبحث فقط ، إلا أنه يُستخدم الآن بشكل حصري تقريبًا لتقييم الأنظمة المعدة للاستخدام في العالم الحقيقي. هذا على الرغم من وجود علامة تحذير على موقع الويب لمجموعة البيانات تحذر من مثل هذا الاستخدام.

في الآونة الأخيرة ، تم إعادة تعيين مجموعة البيانات في مشتق يسمى SMFRD ، والذي أضاف أقنعة وجه لكل صورة لتعزيز التعرف على الوجه أثناء الوباء. لاحظ المؤلفون أن هذا قد يثير تحديات أخلاقية جديدة. انتقد المدافعون عن الخصوصية مثل هذه التطبيقات لأنها تغذي المراقبة ، على سبيل المثال - وخاصة لتمكين الحكومة من التعرف على المتظاهرين المقنعين.

هذه ورقة مهمة حقًا ، لأن أعين الناس لم تكن عمومًا منفتحة على التعقيدات والأضرار والمخاطر المحتملة لمجموعات البيانات ، كما تقول مارغريت ميتشل ، باحثة أخلاقيات الذكاء الاصطناعي وقائدة في ممارسات البيانات المسؤولة ، والتي لم تشارك في الدراسة.

يتحول الرجل إلى طفل رضيع

وتضيف أن الثقافة داخل مجتمع الذكاء الاصطناعي لفترة طويلة كانت تفترض أن البيانات موجودة ليتم استخدامها. توضح هذه الورقة كيف يمكن أن يؤدي ذلك إلى مشاكل في المستقبل. من المهم حقًا التفكير في القيم المختلفة التي تشفرها مجموعة البيانات ، فضلاً عن القيم التي يشفرها وجود مجموعة بيانات متاحة ، على حد قولها.

إصلاح

يقدم مؤلفو الدراسة العديد من التوصيات لمجتمع الذكاء الاصطناعي للمضي قدمًا. أولاً ، يجب على المبدعين التواصل بشكل أكثر وضوحًا حول الاستخدام المقصود لمجموعات البيانات الخاصة بهم ، سواء من خلال التراخيص أو من خلال التوثيق التفصيلي. يجب عليهم أيضًا وضع قيود أكثر صرامة على الوصول إلى بياناتهم ، ربما عن طريق مطالبة الباحثين بتوقيع شروط الاتفاق أو مطالبتهم بملء طلب ، خاصة إذا كانوا يعتزمون إنشاء مجموعة بيانات مشتقة.

ثانيًا ، يجب أن تضع المؤتمرات البحثية معايير حول كيفية جمع البيانات ، وتوسيمها ، واستخدامها ، ويجب أن تخلق حوافز لإنشاء مجموعة بيانات مسؤولة. يتضمن مؤتمر NeurIPS ، أكبر مؤتمر لبحوث الذكاء الاصطناعي ، بالفعل قائمة تحقق بأفضل الممارسات والمبادئ التوجيهية الأخلاقية.

المواقع المحجوبة في الصين

يقترح ميتشل المضي قدمًا في الأمر. كجزء من مشروع BigScience ، وهي عبارة عن تعاون بين باحثي الذكاء الاصطناعي لتطوير نموذج ذكاء اصطناعي يمكنه تحليل وتوليد لغة طبيعية وفقًا لمعيار أخلاقي صارم ، فقد كانت تجرب فكرة إنشاء منظمات إشراف على مجموعة البيانات - فرق من الأشخاص لا تتعامل فقط مع التنظيم والصيانة ، واستخدام البيانات ولكن أيضًا العمل مع المحامين والنشطاء وعامة الناس للتأكد من أنها تتوافق مع المعايير القانونية ، ويتم جمعها فقط بموافقة ، ويمكن إزالتها إذا اختار شخص ما سحب المعلومات الشخصية. لن تكون منظمات الإشراف هذه ضرورية لجميع مجموعات البيانات - ولكن بالتأكيد للبيانات المسروقة التي قد تحتوي على معلومات بيومترية أو معلومات شخصية أو ملكية فكرية.

إن جمع مجموعة البيانات ومراقبتها ليست مهمة لمرة واحدة لشخص أو شخصين ، كما تقول. إذا كنت تفعل هذا بمسؤولية ، فإنه ينقسم إلى العديد من المهام المختلفة التي تتطلب تفكيرًا عميقًا وخبرة عميقة ومجموعة متنوعة من الأشخاص المختلفين.

في السنوات الأخيرة ، انتقل المجال بشكل متزايد نحو الاعتقاد بأن مجموعات البيانات المنسقة بعناية أكبر سيكون مفتاحًا للتغلب على العديد من التحديات الفنية والأخلاقية في الصناعة. من الواضح الآن أن إنشاء مجموعات بيانات أكثر مسؤولية لا يكفي تقريبًا. يجب أن يلتزم أولئك الذين يعملون في مجال الذكاء الاصطناعي على المدى الطويل بالحفاظ عليها واستخدامها بشكل أخلاقي.

يخفي

التقنيات الفعلية

فئة

غير مصنف

تكنولوجيا

التكنولوجيا الحيوية

سياسة التكنولوجيا

تغير المناخ

البشر والتكنولوجيا

وادي السيليكون

الحوسبة

مجلة Mit News

الذكاء الاصطناعي

الفراغ

المدن الذكية

بلوكشين

قصة مميزة

الملف الشخصي للخريجين

اتصال الخريجين

ميزة أخبار معهد ماساتشوستس للتكنولوجيا

1865

وجهة نظري

77 Mass Ave

قابل المؤلف

ملامح في الكرم

شوهد في الحرم الجامعي

خطابات الخريجين

أخبار

انتخابات 2020

فهرس With

تحت القبه

خرطوم الحريق

قصص لانهائية

مشروع تكنولوجيا الوباء

من الرئيس

غلاف القصه

معرض الصور

موصى به