مع تعليم الشبكات العصبونية العميقة (Deep Neural Networks) أن تتحدث، وتقود السيارات، وتلعب ألعاب الفيديو، وتحلم، وترسم، وتقوم باكتشافات علمية، ازدادت حيرة مخترعيها البشر الذين لم يتوقعوا أن تعمل هذه الخوارزميات بهذه الجودة.

لم يوجه تصميم هذه الخوارزميات سوى إيحاء مبهم مستوحى من تصميم الدماغ، والذي لا يُعرف كيف يعمل هو الآخر!

كالدماغ، تحوي الشبكات العصبونية العميقة طبقاتٍ من العصبونات الصناعية -وهي عبارة عن أجزاء من ذاكرة الحاسوب- عندما يعمل العصبون فإنه يرسل إشارات للعصبونات المتصلة معه في الطبقة الأعلى.

خلال التعلم العميق (Deep Learning) تقوى بعض الاتصالات وتضعف أخرى، لجعل النظام أفضل في إرسال المعطيات المدخلة -بكسلات صورة كلب مثلًا- إلى الأعلى عبر الطبقات وصولًا إلى عصبونات مرتبطة بالمفاهيم عالية المستوى -كالكلب مثلًا- وبعد أن «تتعلم» الشبكة العصبونية العميقة من آلاف صور الكلاب، يصبح بإمكانها التعرف على صور الكلاب بدقة قدرة البشر على القيام بذلك.

القفزة العجيبة من تعلم حالات خاصة إلى التوصل إلى مفاهيم عامة، والتي تحدث خلال فترة التعلم، تعطي التعلم العميق قوته، تمامًا كما تكمن وراء التفكير البشري والإبداع والقدرات الأخرى التي يطلق عليها مجتمعة بـ «الذكاء».

ويتساءل الخبراء عما يدور حول التعلم العميق الذي يسمح بالتعميم، إلى أي مدى يسيطر العقل على الواقع بنفس الطريقة.

منذ فترة بسيطة، قدَّم فيديو لخطابٍ في مؤتمر ببرلين على اليوتيوب، تم تداوله بين باحثي الذكاء الصناعي بشكلٍ واسع حلًا ممكنًا.

أثناء الخطاب، قدَّم نفتالي تيشبي (Naftali Tishby) عالم حاسوب وأعصاب (Neuroscientist) من الجامعة العبرية في القدس (Hebrew University of Jerusalem) دليلًا يدعم نظريةً جديدة تشرح آلية عمل التعلم العميق.

اِدعى (تيشبي) أن الشبكات العصبونية العميقة تتعلم عبر عملية تدعى (مزنق المعلومات- Information Bottleneck) والتي وصفها هو ومشاركين آخرين نظريًا عام 1999م.

الفكرة أن الشبكة العصبونية تتخلص من البيانات المدخلة العشوائية المتعلقة بتفاصيل غير المهمة، وكأنها تدفع المعلومات عبر عنق زجاجة، مبقيةً فقط على الصفات الأكثر اتصالًا بالمفهوم العام.

أظهرت تجربة أخاذة قام بها كل من (تيشبي) وطالبه رافيد شفارتز زيف (Ravid Shwartz-Ziv) كيف تحدث عملية الدفع هذه خلال التعلم العميق، على الأقل في الحالات المدروسة.

أحدثت اكتشافات (تيشبي) ضجة في مجتمع الذكاء الصناعي.

«أعتقد أن فكرة (مزنق المعلومات- Information Bottleneck) ستكون مهمة جدًا في أبحاث الشبكات العصبونية العميقة القادمة»، هذا ما قاله أليكس أليمي (Alex Alemi) من (Google Research) الذي قام بتطوير طريقة تقريبية جديدة لتطبيق تحليل (مزنق المعلومات) على الشبكات العصبونية العميقة الكبيرة.

وأضاف: «قد تخدمنا هذه الاكتشافات، ليس فقط كأدوات نظرية لفهم لماذا تعمل شبكاتنا العصبونية العميقة بهذا الشكل الجيد حاليًا، بل أيضًا كأدوات لبناء تصاميم جديدة ووضع أهداف جديدة لشبكاتنا».

مايزال بعض الباحثين يشككون في أن النظرية تفسر بالكامل نجاح التعلم العميق، ولكن العالمة في فيزياء الجسيمات بجامعة نيويورك كايلي كرانمر (Kyle Cranmer) والتي تستعمل (تعلّم الآلة- Machine Learning) لتحليل تصادم الجسيمات في (مصادم الهادرونات الكبير- Large Hadron Collider) قالت إنه كمبدأ عام للتعلم، فإنه «يبدو صحيحًا بشكلٍ ما».

أرسل جيفري هينتون (Geoffrey Hinton) أحد رواد التعلم العميق والذي يعمل في غوغل وجامعة تورونتو، بريدًا إلكترونيًا لـ (تيشبي) بعد مشاهدته لخطابه في برلين، يقول فيه: «إنه مثير للغاية، يجب عليّ أن أستمع له 10000 مرة أخرى بعد لكي أفهمه حقًا، ولكنه من النادر في هذه الأيام سماع خطاب يشتمل فكرةً جديدة حقًا قد تكون حلًا لأحد أهم الألغاز».

بحسب (تيشبي) والذي يعد مزنق المعلومات أحد المبادئ الأساسية للتعلم، فسواء أكنت خوارزمية، ذبابة، مخلوق واعٍ، أم حسابات فيزيائية عن السلوكيات المنبثقة (emergent behavior) فإن الجواب الذي طال انتظاره هو «أن أهم جزء في التعلم هو في الحقيقة النسيان».

المزنق أو المختنق (The Bottleneck)

بدأ (تيشبي) يفكر في مزنق المعلومات في نفس الوقت الذي بدأ فيه باحثون آخرون بالتفكير في التعلم العميق تقريبًا، علمًا بأن كلا المفهومين لم يكونا قد سُميا بعد.

كانت فترة الثمانينات وكان (تيشبي) يفكر في مدى كفاءة البشر في تمييز الكلام (Speech Recognition) والذي كان تحدٍ رئيسي للذكاء الصناعي في تلك الفترة.

أدرك (تيشبي) أن قلب المشكلة يكمن في السؤال ذو الصلة: ما هي الصفات التي تميز الكلمة المحكية -أكثرها صلة بهذه الكلمة- وكيف نميزها عن المتغيرات الأخرى التي ترافقها كاللكنة والغمغمة والترنيم -ارتفاع وانخفاض الصوت في الكلام- وبشكل عام عندما نواجه بحر المعطيات والذي هو الواقع، فبأي الإشارات نحتفظ؟

قال (تيشبي) في مقابلة معه: «إن فكرة المعلومات ذات الصلة ذكرت عدة مرات عبر التاريخ ولكنها لم تصغ بالشكل الصحيح أبدًا».

وأضاف: «لسنواتٍ عديدة ظن الناس أن (نظرية المعلومات- Information Theory) ليست الطريقة الصحيحة لوصف الوثاقة -قُرب الصلة- حتى (شانون) بنفسه كان لديه اعتقادات خاطئة حول ذلك».

كلود شانون (Claude Shannon) مؤسس نظرية المعلومات، حرّر دراسة المعلومات وجعلها مستقلة بسماحه اعتبارها مجردة، كأصفار وآحاد ذات معنى رياضي بحت.

اعتنق (شانون) وجهة النظر القائلة -كما وصفها تيشبي- «أن المعلومات لا تتعلق بالدلالة».

ولكن (تيشبي) يعتقد بأن هذا خاطئ، إذ أدرك أنه باستخدام نظرية المعلومات، يمكنك أن تعرف الوثاقة -القرابة- بشكل دقيق.

لنفترض أن X مجموعة بيانات معقدة، مثل البكسلات في صورة كلب، ولنفترض أن Y متغير أبسط ممثل بهذه البيانات، كالكلمة كلب.

يمكنك أن تتوصل إلى جميع المعلومات المحتواة في X والمتعلقة -ذات الصلة- بـ Y عبر ضغط (Compressing) X قدر ما تستطيع، دون أن تفقد القدرة على توقع Y.

في الورقة التي نُشرت عام 1999م صاغ كل من (تيشبي) وفرناندو بيريرا (Fernando Pereira) الذي يعمل حاليًا في غوغل، وويليام بياليك (William Bialek) الذي يعمل حاليًا في جامعة (برنستون) ذلك في شكل مسألة تحسين رياضية (Mathematical Optimization Problem) كانت هذه فكرة أساسية بدون تطبيق مهم لها.

يقول (تيشبي): «لقد كنت أفكر في تطبيقات في مختلف السياقات لأكثر من 30 سنة، حظي الوحيد أن الشبكات العصبونية العميقة أصبحت مهمة جدًا».

مُقل العيون على وجوه الناس في المشاهد

على الرغم من أن المفهوم الكامن وراء الشبكات العصبية العميقة قد تم طرحه منذ عقود، إلا أن أداءها في مهامٍ مثل التعرف على الكلام والصور لم يكن بالمستوى المطلوب حتى أوائل هذا العقد، بسبب تحسين نظم التدريب ومعالجات الحواسيب.

أدرك (تيشبي) الارتباط المحتمل بينها وبين مبدأ «مزنق المعلومات» في عام 2014 بعد قراءة ورقة بحثية كتبها الفيزيائيين (ديفيد شواب) و(بانكاج ميهتا).

اكتشف الثنائي أن خوارزمية التعلم العميق التي اخترعها (هينتون) والمسماة (شبكة الإيمان العميقة- Deep Belief Net) تعمل -في حالة معينة- تمامًا مثل (إعادة التطبيع- Renormalization) وهي طريقة تستخدم في حسابات ميكانيكا الكم، وتقوم على تبسيط (Coarse-grain) تفاصيل النظام ومن ثم حساب حالته العامة.

إذ قام كل من (شواب) و(ميهتا) بتطبيق شبكة الإيمان العميقة على نموذج مغناطيس في «نقطة حرجة» إذ يكون النظام كسوريًا (Fractal) أو متشابهًا ذاتيًا على جميع المقاييس (Self-similar) واكتشفوا أن الشبكة تستخدم تلقائيًا إجراءً يشبه إعادة التطبيع لاكتشاف حالة النموذج.

لقد كان هذا مؤشرًا مذهلًا على أن: «استخراج الصفات ذات الصلة في سياق الفيزياء الإحصائية، واستخلاص الصفات ذات الصلة في سياق التعلم العميق، ليسا مجرد كلمات متشابهة، بل هما نفس الشيء «كما قال عالم الفيزياء الحيوية إيليا نيمنمان (Ilya Nemenman).

المشكلة الوحيدة هي أن العالم الحقيقي -بشكلٍ عام- ليس كسوريًا.

يقول (كرنمر): «إن العالم الطبيعي ليس آذانًا على آذان على آذان، إنه مُقل العيون على وجوه الناس في المشاهد، لذا لا يمكنني أن أقول إن إجراء إعادة التطبيع هو السبب في أن التعلم العميق يعمل بشكل جيد على الصور الطبيعية».

لكن (تيشبي) -الذي كان يخضع في ذلك الوقت للعلاج الكيميائي لسرطان البنكرياس- أدرك أن كل من التعلم العميق وإجراءات التبسيط -كإعادة التطبيع- يمكن أن تشملهما فكرة أوسع.

وقال: «إن التفكير في العلوم ودور أفكاري القديمة كان جزءًا مهمًا من شفاء نفسي والتعافي».

في عام 2015 افترض (تيشبي) وطالبته نوجا زاسلافسكي (Noga Zaslavsky) أن التعلم العميق هو إجراء «خنق للمعلومات» يضغط البيانات العشوائية قدر الإمكان، مع الحفاظ على المعلومات حول ما تمثله البيانات.

تكشف تجارب (تيشبي) و(شفارتز زيف) الجديدة على الشبكات العصبونية العميقة، كيف يحدث إجراء الاختناق في الواقع.

في إحدى الحالات، استخدم الباحثان شبكاتٍ صغيرة يمكن تدريبها على تصنيف بيانات الإدخال باستخدام 1 أو 0 – كلب أو ليس كلب- ثم أعطوا الـ (282) وصلة في شبكتهم العصبية قوًى عشوائية مختلفة تمثل قوة الرابطة، ثم قاموا بتتبع ما يحدث بينما كانت الشبكة تقوم بالتعلم من 3000 مجموعة من البيانات المدخلة.

الخوارزمية الأساسية المستخدمة في معظم إجراءات التعلم العميق لتعديل قِوى الوصلات في الشبكة العصبونية، التي تستجيب للبيانات تُسمى (التسلسل المتدرج العشوائي-Stochastic Gradient Descent) في كل مرة يتم فيها إدخال بيانات التدريب في الشبكة، تتدفق سلسلة من نشاط الإطلاق -التشغيل- صعودًا عبر طبقات العصبونات في الشبكة العصبونية الاصطناعية.

عندما تصل الإشارة إلى الطبقة العليا، يمكن مقارنة الناتج النهائي بالتصنيف الصحيح للصورة 1 أو 0، كلب أو ليس كلب.

أي اختلاف بين الجواب الناتج عن عمليات الإطلاق هذه، والجواب الصحيح يتم نشره عكسيًا (Back-Propagated) نزولاً عبر الطبقات، وهذا لأن الخوارزمية تقوي أو تضعف كل اتصال لجعل طبقة الشبكة أفضل في إنتاج إشارة الإخراج الصحيحة.

خلال التدريب تنعكس الأنماط الشائعة في بيانات التدريب على قوة الاتصالات، وتصبح الشبكة خبيرةً في تصنيف البيانات بشكل صحيح، مثل التعرف على كلب أو كلمة أو الرقم 1.

في تجاربهم، تتبع (تيشبي) و(شفارتز زيف) كمية المعلومات التي احتفظت بها كل طبقة من الشبكة العصبية العميقة، حول بيانات الإدخال ومقدار المعلومات التي احتفظت بها كل واحدة عند الإخراج.

وجدوا أنه، طبقةً بطبقة، تقاربت الشبكات إلى الحد النظري لنظرية مزنق المعلومات.

الحد نظري المُشتق في ورقة (تيشبي) و(بيريرا) و(بياليك) الأصلية يمثل أفضل ما يمكن للنظام فعله في استخراج المعلومات ذات الصلة.

عند هذا الحد تكون الشبكة قد ضغطت المدخلات قدر الإمكان دون التضحية بالقدرة على التنبؤ بالنتائج – التصنيفين 0 أو 1- بدقة.

كما قام (تيشبي) و(شفارتز زيف) باكتشاف مذهل وهو أن عملية التعلم العميق تتم على مرحلتين، مرحلة ملائمة قصيرة تتعلم خلالها الشبكة تصنيف بيانات التدريب الخاصة بها، ومرحلة ضغط طويلة تصبح خلالها البيانات جيدة في التعميم.

عندما تقوم الشبكة العصبية العميقة بتعديل قوة روابطها باستخدام خوارزمية (Stochastic Gradient Descent) فإن عدد البتات التي تخزنها حول بيانات الإدخال يبقى ثابتًا أو يزيد قليلًا مع تكيف الوصلات في الشبكة مع الأنماط في بيانات الإدخال، تصبح الشبكة جيدة في تصنيفها بالشكل الملائم، قارن بعض الخبراء هذه المرحلة بمرحلة الحفظ لدى الإنسان.

بعدها ينتقل التعلم لمرحلة الضغط، إذ تبدأ الشبكة بالتخلص من المعلومات حول بيانات الإدخال وتتبع فقط أقوى الصفات، أي الأهم في تحديد التصنيف الذي ستخرجه الخوارزمية.

يحدث هذا لأنه وفي كل دورة من خوارزمية (Stochastic Gradient Descent) تجعل بعض البيانات العرضية في التدريب، الشبكة، تقوم بأمور مختلفة، مغيرةً قوة الارتباط في الوصلات داخل الشبكة للأقوى وللأضعف بشكل عشوائي.

هذه العشوائية تعمل فعليًا عمل ضغط البيانات التي يحتفظ بها النظام عن معطيات الإدخال، على سبيل المثال، قد تحوي بعض صور الكلاب منازلًا في الخلفية، وبعضها لا تحوي صور منازل.

وخلال مرور هذه الأمثلة عبر الشبكة قد تنسى الشبكة العلاقة ما بين المنزل والكلب كوّن بعض الأمثلة تناقضها.

ويعتقد (تيشبي) و(شفارتز زيف) أن هذا النسيان هو ما يجعل الشبكة قادرة على تشكيل مفاهيم عامة.

وبالفعل، أظهرت تجاربهم أن الشبكات العصبونية العميقة تقوي قدرتها على التعميم في مرحلة الضغط، إذ تصبح أفضل في تصنيف البيانات، كإعطاء صور لشبكة عصبونية عميقة مدربة لتتعرف على الكلاب، لكي تحدد فيما إن كانت تحوي كلابًا أم لا.

يبقى أن نرى ما إذا كان «مزنق المعلومات» يحكم جميع أنظمة التعلم العميق، أو ما إذا كانت هناك طرقًا أخرى للتعميم إلى جانب الضغط.

يرى بعض خبراء الذكاء الصناعي أن فكرة (تيشبي) واحدة من العديد من الأفكار النظرية المهمة حول التعلم العميق التي ظهرت في الآونة الأخيرة.

ولاحظ أندرو ساكس (Andrew Saxe) الباحث في علم الذكاء الصناعي وعالم الأعصاب النظري بجامعة هارفارد، أن بعض الشبكات العصبونية العميقة الكبيرة لا يبدو أنها بحاجة إلى مرحلة ضغط لكي تصبح قادرة على التعميم بشكل جيد.

وبدلًا من ذلك، يقوم الباحثون ببرمجة شيءٍ ما يُسمى التوقف المبكر، والذي يقطع التدريب بعد مدة قصيرة لمنع الشبكة من تشكيل الكثير من الارتباطات في المقام الأول.

يجادل (تيشبي) بأن نماذج الشبكات التي حللّها (ساكس) وزملاؤه تختلف عن خوارزميات الشبكة العصبية العميقة المعيارية، ولكن مع ذلك، الحد النظري لمزنق المعلومات يصف قدرة هذه الشبكات على التعميم أفضل من الطرق الأخرى.

تناولت تجربة (تيشبي) و(شفارتز زيف) الأخيرة التساؤلات حول بقاء مبدأ «مزنق المعلومات» صحيحًا في الشبكات العصبونية الكبيرة بشكل جزئي، إذ قاموا بتدريب شبكة عصبونية عميقة أكبر بكثير من تلك التي استخدموها في تجاربهم الأولى -تحوي حوالي 330,000 طبقة- للتعرف على الأرقام المكتوبة بخط اليد في عدد 60000 صورة الموجودة في قاعدة بيانات المعهد الوطني للمعايير والتقنيات (Modified National Institute of Standards and Technology database) والذي يعد معيار معروفًا لقياس أداء خوارزميات التعلم العميق.

رأى العلماء نفس التقارب في الشبكة إلى الحد لنظري لمبدأ «مزنق المعلومات» كما لاحظوا المرحلتين المتميزتين من التعلم العميق، مفصولين بانتقال أكثر حدة من الانتقال في الشبكات الأصغر”قال (تيشبي): «أنا مقتنع تمامًا الآن أن هذه ظاهرة عامة».

البشر والآلات

إن سر كيفية قيام الأدمغة بنقل الإشارات من أعضائنا الحسية ورفعها إلى مستوى وعينا أثار الكثير من الاهتمام المبكر بالشبكات العصبية العميقة بين رواد الذكاء الصناعي، الذين كانوا يأملون في عكس هندسة قواعد التعلم في الدماغ.

ومنذ ذلك الحين وفي خضم الاندفاع المجنون للتقدم التكنولوجي تخلى ممارسو الذكاء الصناعي عن هذا الطريق، وبدلًا من ذلك ركزوا على تعزيز الأداء مع القليل من الاحترام للمصداقية البيولوجية.

ومع ذلك، وبينما تحقق آلات التفكير هذه إنجازات أكبر – حتى أنها تثير المخاوف من أن الذكاء الصناعي يمكن أن يشكل في يوم من الأيام تهديدًا وجوديًا- يأمل العديد من الباحثين أن توضح هذه الاستكشافات رؤًى عامة حول التعلم والذكاء.

وقال برندن ليك (Brenden Lake) أستاذ مساعد في علم النفس وعلوم البيانات بجامعة نيويورك، والذي يدرس أوجه التشابه والاختلاف في كيفية تعلم البشر والآلات، أن اكتشافات (تيشبي) «تمثل خطوة مهمة نحو فتح الصندوق الأسود للشبكات العصبية» لكنه شدد على أن الدماغ يمثل صندوقًا أكثر سواداً وأكبر بكثير.

إن أدمغتنا البالغة، التي تتمتع بمئات المليارات من الروابط بين 86 مليار خلية عصبية، تستخدم في الغالب حقيبةً من الحيل لتعزيز التعميم، تتجاوز إجراءات التعلم الأساسية للصور والصوت التي تحدث أثناء الطفولة والتي قد تشبه العديد من طرق التعلم العميق.

على سبيل المثال، قال (ليك) أنه لا يبدو أن مرحلتي «الملائمة والضغط» التي حددها (تيشبي) لها نظائر في الطريقة التي يتعلم بها الأطفال الأحرف المكتوبة بخط اليد.

لا يحتاج الأطفال إلى رؤية الآلاف من الأمثلة لحرف قبل أن يتمكنوا من التعرف على أمثلة أخرى من ذلك الحرف وكتابته بأنفسهم.

في الواقع، يمكنهم التعلم من مثالٍ واحد، تقترح نماذج (ليك) وزملاؤه أن الدماغ قد يفكك الحرف الجديد إلى سلسلة من الحلقات – وهي عبارة عن ترتيبات دماغية موجودة مسبقًا- مما يسمح بتثبيت مفهوم الحرف على صرح المعرفة السابقة.

قد تحمل مثل هذه الأفكار عن عمل الدماغ دروسًا لمجتمع الذكاء الصناعي، مما يعزز حركة التبادل بين المجالين.

يعتقد (تيشبي) أن نظرية «مزنق المعلومات» الخاصة به ستكون مفيدة في نهاية المطاف في كلا الصعيدين، حتى لو كانت تتخذ شكلًا أكثر عمومية في تعلم الإنسان مما هو عليه في الذكاء الصناعي ومن بين الأفكار الفورية التي يمكن استخلاصها من النظرية، فهمٌ أفضل لأنواع المشاكل التي يمكن حلها عن طريق الشبكات العصبية الحقيقية والصناعية.

وأضاف: «إنها تعطي توصيفًا كاملًا للمسائل القابلة للتعلم، إنها المسائل التي يمكنني فيها التخلص من العشوائية في الإدخالات دون الإضرار بقدرتي على التصنيف.

هذا يتضمن مسائلًا ضمن الرؤية الطبيعية، والتعرف على الكلام، هذا بالضبط نوع المشاكل التي يمكن أن يواجهها دماغنا».

وفي الوقت نفسه، تتعثر الشبكات العصبية الحقيقية والمصطنعة عند محاولة حل المسائل التي تهم فيها كل التفاصيل وأي اختلاف دقيق قد يعني أن النتيجة خاطئة بالكامل.

مثلًا، لا يستطيع معظم الأشخاص ضرب عددين كبيرين في رؤوسهم بسرعة.

ويضيف: «لدينا صفٌ طويل من المسائل كهذه، مسائل منطقية حساسة جدًا لأي تغيير قد يطأ متغيرًا واحدًا، مسائل قابلية التصنيف أو مسائل التشفير، لا أعتقد أن التعلم العميق سيساعدني أبدًا في كسر التشفير».

التعميم – اجتياز مزنق للمعلومات– ربما، يعني إهمال بعض التفاصيل، هذا ليس جيدًا جدًا لإجراء العمليات الحسابية بسرعة، ولكنه ليس النشاط الرئيسي الوحيد في الدماغ.

فنحن نبحث عن الوجوه المألوفة في حشد، وعن كيفية خلق نظام من الفوضى، وعن الإشارات البارزة في عالمٍ مشوش.


  • ترجمة: مهران يوسف
  • تدقيق: محمد عبد الحميد أبو قصيصة
  • تحرير: تسنيم المنجّد
  • المصدر