أحبطت دراسة تحليلية مجردة متواضعة للبشر GPT-40 وGemini و Sonnet.
شهدنا في السنوات المنصرمة الأخيرة تطورات في أنظمة الذكاء الاصطناعي فيما يتعلق بالتعرف على محتويات الصور المعقدة وتحليلها، ولكن ألقت دراسة بحثية جديدة الضوء على المرات التي تفشل بها “أنظمة التعلم المرئية” التي يتحدث عنها الجميع في المهام التحليلية المرئية البسيطة ذات المستوى المنخفض والسخيف بالنسبة للبشر.
جاء في الورقة البحثية بعنوان «أنظمة التعلم المرئية عمياء» أن باحثين من جامعة أوبورن وجامعة ألأبيرتو صنعوا 8 مهام مرئية بسيطة تختبر حدة الذكاء مرفقة بإجابات صحيحة موضوعية. وتباينت المهام من تحديد عدد المرات التي يتقاطع بها لونان إلى تحديد الحرف الذي وُضع في دائرة في الكلمة الطويلة وانتهاءً بتحديد عدد الأشكال المتداخلة الموجودة في الصورة. (يمكن الاطلاع على الأمثلة والنتائج على صفحة فريق الباحثين الإلكترونية).
إن هذه الاختبارات من صنع شيفرة مخصصة ولا تعتمد على صور موجودة سابقًا أو اختبارات يمكن إيجادها على صفحات الإنترنت، لذلك فإن فرصة أنظمة التعلم المرئية بإيجاد الحلول بواسطة الحفظ ضئيلة للغاية، على حد تعبير الباحثين. وتتطلب الاختبارات معرفة ولو ضئيلة بالعالم تتخطى الأشكال ثنائية الأبعاد الأساسية، وهذا يجعل استنتاج الإجابة من السؤال النصي والاختيارات وحدها أمرًا صعبًا، وعدت بعض أنظمة الذكاء الاصطناعي المرئية أن تلك مشكلة.
هل تتفوق على ذكاء طالب في الصف الخامس؟
بعد إجراء عدة اختبارات على أربع أنظمة ذكاء اصطناعي مرئية مختلفة منها GPT-40, Gemini-1.5 Pro, Sonnet-3, Sonnet-3.5 وجد الباحثون أن الأنظمة الأربعة تعوزها الدقة التامة التي قد تتوقع وجودها في مهام تحليلية بسيطة مثل التي نادرًا ما يجد البشر العاديون مشكلة في تحقيقها.
ولكن حجم ضعف أداء أنظمة الذكاء الاصطناعي متنوعة إلى حد كبير حسب المهمة المحددة. وعندما طُلب من الأنظمة حساب عدد جداول وصفوف شبكة فارغة، فإن أفضل الأنظمة من ناحية الأداء أعطت إجابة بدقة أقل من 60% من الوقت. ومن جانب آخر، وصلت دقة Gemini-1.5 Pro نحو 93% في تحديد الأحرف التي وُضعت في دائرة، ما يجعل أداءها بنفس مستوى البشر.
حتى أبسط التغيرات في المهام تؤدي إلى تغييرات كبيرة في النتائج.
فبينما أثبتت الأنظمة الخمس قدرتها على التحديد الصحيح لخمس دوائر فارغة متداخلة، انخفضت دقة هذه الأنظمة إلى ما دون 50% عند إدخال ست إلى تسع دوائر. ويعتقد الباحثون أن هذا يقترح أن أنظمة التعلم المرئية متحيزة إلى ما يعرف بالشعار الأولومبي الذي يحوي على خمس دوائر. وفي حالات أخرى، تقدم الأنظمة إجابات لا منطقية متل التخمين “9” أو”n” أو “C” في الحرف الذي وضع في دائرة لكلمة “تحت الجلد = Subdermatoglyphic).
وفي المجمل فإن النتائج تلقي الضوء على عدم قدرة أنظمة الذكاء الاصطناعي في تأدية واجبها في تحليل الصور المجردة ذات المستوى المنخفض مقارنة بأدائها عند تحليل الصور ذات المستوى العالي فهي لديها ما يسمى النقاط العمياء.
إن هذا يذكرنا إلى حد ما بالثغرات في الإمكانات التي نراها في الأنظمة اللغوية الكبيرة المعروفة عالميًا، ما يصنع ملخصات مقنعة لنصوص طويلة بينما يظهر الفشل في أسئلة الرياضيات واللفظ الأساسية.
قد يعود سبب وجود ثغرات في إمكانات الأنظمة اللغوية المرئية إلى عدم قدم هذه الأنظمة في التعميم بما يتجاوز أنواع المحتوى التي تمرنت عليها. ولكن عندما حاول الباحثون ضبط نظام باستخدام صور محددة مأخوذة من إحدى مهامها (اختبار “هل تتلامس الدائرتين؟”) أظهر ذلك النظام تحسنًا طفيفًا في الدقة يتراوح بين 17% و37%.
كتب الباحثون: «إن قيمة خسارة هذه الاختبارات كانت قريبة إلى الصفر، وأن النظام لا يتلاءم مع التدريبات ولكنه يفشل في التعميم».
يقترح الباحثون أن الثغرات في إمكانات أنظمة اللغة المرئية قد تكون مرتبطة بما يسمى الدمج المتأخر لمرمزات الصورة مع أنظمة اللغة الكبير المدربة سابقًا.
إن طريقة الدمج المبكر هي طريقة تدريبية تدمج الترميز المرئي مع التدريب اللغوي وقد يقودنا إلى نتائج أفضل في اختبارات المستوى المنخفض، وهذا ما اقترحه الباحثون.
اقرأ أيضًا:
كيف يساعد الذكاء الاصطناعي والطائرات المسيرة المزارعين على مكافحة غزو الحشرات الضارة؟
مؤشر غير جيد، الذكاء الاصطناعي سيستهلك طاقة أكثر مما كنا نظن
ترجمة: خضر نعامة
تدقيق: بشير حمّادة