تمكن بحث جديد في جامعة ميشيغان من تدريب نماذج الشبكات العصبونية على تحديد موقع الشخص في مقاطع الفيديو، ولو لم يكن الشخص ظاهرًا بأكمله، فهو يقدم استخدامًا جديدًا لمكتبة ضخمة من المحتوى المرئي لتعليم الآلات غاية سلوكيات البشر وكيفية تفاعلهم مع بيئاتهم.

نحن البشر عندما نرى يدًا تكتب، بكل بساطة نستنتج أن شخصًا ما يكتب، وبالاعتماد على زاوية اليد وارتفاع الطاولة يمكننا أن نحدد وضعيته بين الجلوس والوقوف.

يعد طاه طبقًا في فيديو حُمّل مسبقًا على اليسار، ويحدد نموذج الشبكة العصبونية لفريق U-M موقعه في كل إطار كما تمثله شبكة ثلاثية الأبعاد على اليمين

يعد طاه طبقًا في فيديو حُمّل مسبقًا على اليسار، ويحدد نموذج الشبكة العصبونية لفريق U-M موقعه في كل إطار كما تمثله شبكة ثلاثية الأبعاد على اليمين

إن نماذج الشبكات العصبونية ليست جيدة في هذا النوع من الاستنتاجات، إذ تحتاج الروبوتات وتقنيات الذكاء الاصطناعي إلى فهم أعمق لوضعية أجسامنا ومعاني تصرفاتنا المختلفة لكي تعرف ماذا نفعل وبم نشعر بالنظر إلينا فقط.

تخمين موضع الإنسان هو مجال دراسي يهتم بتدريب تقنيات الذكاء الاصطناعي على تحديد موقع الأشخاص في الصور أو مقاطع الفيديو، لكي تصبح قادرةً على نمذجة حركتهم باستقلالية.

حاليًا، ما تزال هذه التقنية بدائية، إذ تُدرَّب على مجموعة مُنتقاة مسبقًا من البيانات المرئية التي تحوي أشخاصًا كاملين في اللقطات، إضافةً إلى أن تلك الفيديوهات تُقدَّم إلى الشبكات العصبونية مزودة بمواقع الأشخاص كي تتحقق من عملها، وهذا يتطلب وجود عامل بشري لتحديد مواقع مفاصل الجسم.

وجد البروفيسور ديفيد فوي وطالب الدكتوراه كريس روكويل مشكلةً في هذا التدريب، إذ إن 4% فقط من مكتبات المحتوى المرئي الضخمة التي تحوي بيانات من مواقع الإنترنت تُظهر أشخاصًا كاملين بوضوح، وهي ليست مصنفة، لذا لن تجدي هذه التقنيات القديمة إلا إذا أُعيد تعديل البيانات وتصنيفها.

يضيف روكويل: «إن مجموعات البيانات معدلة إلى حد ما، إذ يكون الشخص على ارتفاع معيّن وفي وسط الصورة، الأشياء على الإنترنت ليست كذلك».

توصل روكويل وفوي إلى طريقتين للتغلب على هذه المشكلة، قُدمتا في ورقة بحثيّة في المؤتمر الأوروبي للرؤية الحاسوبية سنة 2020.

تؤدي التقنيتان إلى أسلوبين جديدين في تدريب نماذج الشبكة العصبية بالفيديو. الأسلوب الأول هو تمكين نماذج الذكاء الاصطناعي من الافتراض بناء على الجزء الظاهر من الشخص، والتدريب الذاتي لهذه النماذج على مقاطع الفيديو غير المصنفة، إذ يختار النموذج التخمينات الأدق دون أن يُعطى الحل.

في البداية، كان عليهم حل مشكلة ضعف أداء الشبكات العصبونية المدربة على الصور غير الكاملة للأشخاص.

لتحقيق ذلك أقدم الثنائي على خطوة بديهية، متمثلة في اقتصاص أجزاء من البيانات التي تدربت عليها الشبكات العصبونية مسبقًا لتبدو مثل مقاطع الفيديو الموجودة على الإنترنت، مع الإبقاء مثلًا على الجذع أو الرأس أو الذراعين، ثم أُعيد تدريب نماذج الشبكات العصبونية على هذه الأجزاء.

بفضل تلك التقنية أصبح بإمكان النماذج إعطاء نتائج أكثر واقعية من فيديوهات الإنترنت.

كان عليهم حل مشكلة ضعف أداء الشبكات العصبية المدربة على هذه الصور المجتزءة. أشار الباحثون إلى أن التصميم البسيط لهذه التقنية جعل أسلوب المعالجة أكثر فعالية للاستخدام على نطاق واسع.

مقارنة بين ما تراه الشبكات العصبية المدربة في مقطع فيديو مع عرض جزئي فقط للشخص. أداء النماذج القديمة ضعيف، يكون الناتج أقرب إلى الواقع بعد التدريب الأولي على مجموعة البيانات المقتطعة، ويظهر الناتج النهائي نتائج التدريب الذاتي للنموذج على الفيديو

مقارنة بين ما تراه الشبكات العصبية المدربة في مقطع فيديو مع عرض جزئي فقط للشخص. أداء النماذج القديمة ضعيف، يكون الناتج أقرب إلى الواقع بعد التدريب الأولي على مجموعة البيانات المقتطعة، ويظهر الناتج النهائي نتائج التدريب الذاتي للنموذج على الفيديو

أضاف البروفيسور فوي: «لاستخدام التقنية الجديدة بعدة طرق مختلفة، بُسطت بأقصى درجة ممكنة، ومع زيادة العمل على تقدير موضع الإنسان، ستتمكن النماذج من معالجة بيانات الإنترنت باستخدام هذه الطريقة».

بإجراء تجارب باستخدام تقنيتي إعادة تشكيل شبكة ثلاثية الأبعاد كاملة لجسم الإنسان (HMR) على سبيل المقارنة، فإن التجارب كانت واضحة، إذ أعطى نموذجهم نتائج تقريبية جيدة عن مواقع الأشخاص وموقع أيديهم، أما قبل ذلك فكانت النتائج عشوائية عندما لم يكن الأشخاص كاملين في اللقطات.

يعتمد الأسلوب الثاني على شبكة عصبونية تستطيع تدريب نفسها على إعطاء توقعاتها الخاصة لمواقع الأشخاص في مقاطع الفيديو، والتمييز بين التوقعات السيئة والجيدة، ما يلغي الحاجة إلى أشخاص لتصنيف البيانات وتعديلها، لإنجاح هذه الطريقة يحتاج النموذج إلى طريقة لتحديد التوقعات الموفقة التي يجب الاحتفاظ بها.

ليتمكن من ذلك، يُستخدم أسلوب يُسمى «ثقة النموذج»، أي مدى ثقة نموذج الشبكة العصبونية بما يراه. عند تدريب النموذج على تصنيف الأشياء في صورة فإنه يعطي احتمالًا لكل عنصر، مثلًا هذا شخص بنسبة 80%، وهذا كرسي بنسبة 40% وهكذا. لكن عند تحديد أشياء مثل زاوية مرفق شخص ما، فإنه من الصعب إعطاء إجابة واضحة عن كون النموذج يدرك ما يراه.

للتغلب على هذا، عدل الباحثون طريقة التدريب قليلًا، إذ دربوا النماذج على نفس الإطار عدة مرات، لكن في كل مرة يُزاح الإطار قليلًا في اتجاهات مختلفة. عندما لا تكون النماذج العصبونية متيقنة مما تراه يزداد احتمال الخطأ، وهنا تأتي أهمية هذا الأسلوب، إذ إن أي تغيير بسيط قد يسببه انزياح الإطار في المحتوى المرئي يؤدي إلى تغيير كبير في نسبة إدراك النموذج لما يراه، ويستطيع الباحثون تأكيد ما يراه النموذج بواسطة تجميع توقعاته لعدة إطارات متشابهة.

يوضح روكويل: «إذا كانت تلك النماذج تدرك ما يحدث فإن التوقعات ستكون ثابتة، وسنتمكن من استخدامه لتصنيف مجموعات من الصور الجيدة والتخلص من الكثير من الصور السيئة».

في النهاية، قد تستطيع النماذج تحديد مدى تيقنها من إجابتها عما تراه، وتتجاهل التوقعات الخاطئة، وتسمح الأساليب المدمجة للنماذج بأن تتدرب ذاتيًا على إطارات الفيديو دون مساعدة.

يرى روكويل فرصًا واعدة لمواصلة هذا العمل، إضافةً إلى تحسين توقعات النماذج، إذ يمكنهم تعلم كيفية تمييز الكائنات في الإطار، وتخمين ما يفعله الشخص مع الكائن، وتحديد حجم العنصر، ما يسمح في النهاية بفهم أكبر للبيئة باستعمال الفيديو، ويفتح المجال لتطبيقات جديدة.

يقول روكويل: «إن نمذجة الأشخاص هي خطوة نحو فهمهم، قبل تلك التقنيات كان من الصعب فهم الأشخاص في مقاطع الفيديو العادية، لكن الآن أصبح بالإمكان التعرف عليهم بسهولة».

اقرأ أيضًا:

يستطيع الذكاء الصناعي اليوم أن يفك تشفير الكلمات عن طريق أمواج الدماغ

العقل العميق : مشروع جديد من غوغل ينقل الشبكات العصبونية الى مستوى اخر

ترجمة: يامن زيود

تدقيق: عون حدّاد

مراجعة: أكرم محيي الدين

المصدر