الذكاء الاصطناعي AI يعيد تشكيل عالمنا من جديد، إذ تقود البيانات نظامنا البيئي العالمي، وتقنيات “AI” تكشف وجود أنماط داخل البيانات.
تؤثر الهواتف والمنازل والمدن الذكية على طريقة عيشنا وكيفية تفاعلنا، وتساهم أنظمة “AI” بشكل متزايد في قرارات التوظيف والتشخيصات الطبية والأحكام القضائية.
سواء بدى لك هذا السيناريو جيدًا أو سيئًا فهو يمثل وجهة نظرك، والمخاطر المحتملة لـ”AI” تؤخذ في الاعتبار بشكل مستمر، فالروبوتات القاتلة والبطالة هي مخاوف متوقعة، حتى أن البعض يخشى أيضًا أن تسبب انقراضًا للجنس البشري.
تتنبأ التوقعات الأكثر تفاؤلًا بأن “AI” سيضخ 15 تريليون دولار أمريكي في الاقتصاد العالمي بحلول عام 2030، وسيمنحنا ذلك في النهاية نوعًا من الراحة.
بالتأكيد نحتاج إلى أخذ تأثير هذه التقنيات على مجتمعنا بعين الاعتبار، وأحد الأمور المقلقة هو أن أنظمة “AI” تعزز التأثيرات السيئة للتحيزات الاجتماعية الحالية.
حظيت العديد من النماذج السيئة لهذه الظاهرة باهتمام واسع النطاق: أحدث أنظمة الترجمة الآلية والتي تنتج مخرجات خاطئة في تحديد الجنس، وأنظمة التعرف على الصور التي تصف السود بأنهم غوريلات.
تنشأ هذه المشاكل لأن هذه الأنظمة تستخدم نماذج رياضية -مثل الشبكات العصبية- لتحديد الأنماط في مجموعة كبيرة من البيانات، فإذا كانت هذه البيانات تميل بشكل سيء نحو طرق متعددة، فحتمًا سيتم تعلم تحيزاتها المتضمنة، ونسخها بواسطة الأنظمة المدربة.
تسبب التقنيات المنحازة ذاتية التحكم المشاكل لأنها يمكن أن تهمش جماعات من البشر مثل النساء والأقليات العرقية أو المسنين، ما يزيد من حالات عدم التوازن الاجتماعي.
على سبيل المثال، إذا دُربت أنظمة الذكاء الاصطناعي “AI” على بيانات الاعتقالات التي تقوم بها الشرطة، فإن أي تحيزات متعمدة أو غير متعمدة تتجلى في أنماط الاعتقالات الحالية، فسوف تتكرر بواسطة نظام “AI” تنبؤي أمني مدرب على تلك البيانات.
إدراكًا للآثار الجسيمة المترتبة على ذلك، فقد نصحت مؤخرًا العديد من المنظمات الموثوقة بأنه يجب تدريب جميع أنظمة “AI” على البيانات غير المتحيزة.
التوجيهات الأخلاقية التي نُشرت في وقت سابق من عام 2019 من قبل المفوضية الأوروبية، قدمت التوصية التالية:
عند جمع البيانات، فإنها قد تحتوي على تحيزات وأخطاء من المجتمع نفسه، لذلك يجب معالجتها من البداية.
التعامل مع البيانات المتحيزة
كل هذا يبدو معقولًا كفاية، لكن للأسف، في بعض الأحيان ببساطة يستحيل ضمان عدم تحيز بعض البيانات قبل التدريب.
يتم تدريب جميع أنظمة الترجمة الآلية الحديثة -مثل ترجمة غوغل- على الجمل الثنائية sentence pairs.
نظام اللغة الإنجليزي – الفرنسي يربط مثلًا الجملة الانجليزية (she is tall) مع الجملة الفرنسية (elle est grande). قد يكون هناك 500 مليون مثل هذه الجمل الثنائية في مجموعة معينة من بيانات التدريب، وبالتالي في المحصلة مليار جملة منفصلة.
يجب إزالة جميع التحيزات المتعلقة بنوع الجنس من مجموعات البيانات التي من هذا النوع، هذا إذا أردنا منع النظام من إنتاج مخرجات متحيزة جنسيًا مثل ما يلي:
المدخلات:
The women started the meeting. They worked efficiently.
المخرجات:
Les femmes ont commencé la réunion. Ils ont travaillé efficacement.
تعني (بدأت النساء بالاجتماع. لقد عملن بكفاءة.)
وقد أُنشئت الترجمة الفرنسية باستخدام ترجمة غوغل في 11 تشرين الأول (أكتوبر) عام 2019، وهي غير دقيقة: على سبيل المثال في الجملة السابقة (Ils) هو لجمع المذكر في اللغة الفرنسية، ويظهر في الجملة على الرغم من أن سياق الجملة يشير بوضوح للنساء.
وهذا يعد مثالًا كلاسيكيًا على التحيزات في نظام التدريب.
بشكل عام، 70% من الضمائر الجنسية في مجموعات بيانات الترجمة ذكورية، في حين أن 30% فقط أنثوية.
وذلك لأن النصوص المستخدمة لهذه الأغراض تميل إلى الرجال أكثر من النساء.
ولمنع تكرار أنظمة الترجمة لهذه التحيزات، تجب إزالة الجمل الثنائية الخاطئة من البيانات لكي تكون نسبة الضمائر المذكرة إلى المؤنثة 50/50 وفي كلا اللغتين الإنجليزية والفرنسية.
وهذا سيمنع نظام الذكاء الاصطناعي من تعيين احتمالات أعلى لضمائر المذكر.
أيضًا يجب أن تكون التصريفات والصفات متوازنة 50/50، بالطبع لأن هذا يمكن أن يشير إلى نوع الجنس في كلا اللغتين
(“actor”, “actress”); (“neuf”, “neuve”)
وتعني (ممثل، ممثلة) – وهكذا.
ولكن هذا الاختزال الحاد في النماذج سيؤدي بالضرورة إلى تقليل بيانات التدريب المتاحة إلى حد كبير، وبالتالي تقليل جودة الترجمة الناتجة.
وحتى لو كانت مجموعة البيانات الفرعية الناتجة متوازنة تمامًا بالنسبة لما يخص الجنسين، فسيظل منحرفًا بالنسبة للتحيزات الأخرى مثل العرق أو العمر.
في الحقيقة، سيكون من الصعب إزالة هذه التحيزات بالكامل.
إذا كرس شخص واحد 5 ثوان لقراءة كل جملة في بيانات التدريب، فسيحتاج إلى 159 عامًا لفحصها كلها – وهذا مع افتراض أنه سيعمل طوال النهار والليل، دون أي استراحة للغداء.
البديل؟
قبل إنشاء أنظمة “AI” من غير الواقعي أن تكون كل مجموعة بيانات التدريب غير متحيزة، وتفترض عادةً هذه المتطلبات عالية المستوى أن “AI” يدل على تجمع متجانس من النماذج والخوارزميات الرياضية.
في الواقع، تتطلب مهام “AI” المختلفة أنواعًا مختلفة من الأنظمة، والتقليل من مدى هذا التنوع يخفي المشاكل الحقيقة، مثل بيانات التدريب المنحرفة جدًا.
هذا أمر مؤسف، لأنه يعني أن الحلول الأخرى لمشكلة تحيز البيانات مهملة.
على سبيل المثال، يمكن الحد بشكل ملموس من تحيزات نظام الترجمة الآلية المدربة، إذا تم تكييف النظام بعد تدريبه على مجموعة بيانات أكبر، ومنحازة تمامًا. يمكن عمل ذلك باستخدام مجموعة بيانات أصغر وأقل انحرافًا. قد تكون معظم البيانات متحيزة جدًا، ولكن لا يشمل ذلك نظام التدريب نفسه.
لكن للأسف، نادرًا ما تناقش هذه التقنيات من قبل المختصين بوضع المبادئ التوجيهية والأطر التشريعية لبحوث “AI”.
إذا قامت أنظمة “AI” بتعزيز الاختلالات الاجتماعية، فهي ببساطة تعيق التغير الاجتماعي بدلًا من تسهيله.
إذا كانت تقنيات “AI” التي نستخدمها يوميًا وبشكل متزايد أقل تحيزًا بكثير مما نحن عليه اليوم، عندها يمكن أن تساعدنا في اكتشاف التحيزات وإصلاحها. وهذا بالتأكيد هذا ما يجب أن نصل إليه.
لذا يتعين على مطوري “AI” التفكير على المدى البعيد حول العواقب الاجتماعية للأنظمة التي يقومون بإنشائها، بينما يحتاج أولئك الذين يكتبون عن “AI” إلى فهم أكثر تفصيلًا لكيفية تصميم أنظمة “AI” وإنشائها.
وسواء كنا نقترب من التكنولوجيا المتطورة جدًا أو من نهاية العالم، فمن يعلم أولًا يكون هو الأفضل.
كتبه: ماركوس تومالين، باحث أقدم ومشارك في مختبر “AI”، قسم الهندسة، جامعة كامبريدج، وستيفاني أولمان باحثة مشاركة لما بعد الدكتوراه، جامعة كامبريدج.
اقرأ أيضًا:
كيف تستطيع الحكومات الحد من تطور الذكاء الاصطناعي الفائق العدواني؟
ما الفرق بين الذكاء الاصطناعي ، تعلم الآلة و التعلم العميق ؟
ترجمة: محمد رشود
تدقيق: سلمى عفش