كيف يحول الذكاء الاصطناعي نشاط الدماغ إلى كلام ؟

كيف يحول الذكاء الاصطناعي نشاط الدماغ إلى كلام ؟ لدى الكثير من الأشخاص المصابين بالشلل وغير القادرين على الكلام، إشارات لما يودون قوله مخفية في أدمغتهم. لم يتمكن أي أحد من فك شيفرة هذه الإشارات مباشرةً. لكن 3 فرق بحث أحرزت مؤخرًا تقدمًا في تحويل البيانات من أقطاب كهربائية موضوعة جراحيًا في الدماغ إلى كلام مولد حاسوبيًا. استخدام نماذج حاسوبية تعتمد على الذكاء الاصطناعي تعرف بالشبكات العصبية يمكنها إعادة بناء الكلام والعبارات التي كانت -في بعض الأحيان- واضحةً للمستمعين من البشر.

لم تتمكن أي من هذه الجهود التي تم وصفها في البحوث التي أجريت في الأشهر الأخيرة من إعادة خلق الكلام الذي بالكاد يتصوره الناس. عوضًا عن ذلك، راقب الباحثون أجزاءً من الدماغ بينما كان الناس يقرؤون بصوت عال، أو يتحدثون بصمت، أو يستمعون إلى تسجيلات معينة؛ إذ أن إظهار الحديث المعاد بناؤه بشكل مفهوم هو شيء، كما يقول ستيفاني مارتن، المهندس العصبي في جامعة جنيف في سويسرا: «مثير بالتأكيد».

يمكن للأشخاص الذين فقدوا القدرة على الكلام بعد السكتة الدماغية استخدام أعينهم أو القيام بحركات صغيرة للتحكم في المؤشر أو اختيار الحروف على الشاشة (كما هو الحال عند عالم الكونيات ستيفن هوكينغ، إذ تم وضع مستشعر صغير مثبت على نظارته يقوم بأخذ الأوامر عن طريق شد عضلات الخد). لكن باستخدام حاسوب العقل الوسيط قد يستعيدون التحكم بمقام الصوت ونبرته، أو بالمقدرة على المداخلة في محادثات سريعة.

صرح عالم الحاسوب في جامعة كولومبيا نعمة ميسغراني (Nima Mesgarani): «إن العقبات كثيرة، إذ أننا نحاول أن نكتشف نمط العصبونات التي تثار وتتوقف في نقاط زمنية مختلفة ونستدل على أصوات الكلام لكن يختلف التخطيط من شخص لأخر». تتباين ترجمة هذه الإشارات إلى كلام من شخص لأخر. ولهذا يجب أن تكون هناك نماذج حاسوبية مدربة لكل شخص. ولتعطي النماذج نتائج أفضل مع بيانات دقيقة جدًا فالأمر يتطلب فتح الجمجمة.

يقوم الباحثون بمثل هذا الفعل العدائي في حالات نادرة، أحدها أثناء إزالة ورم دماغي، إذ تساعد القراءات الكهربائية من الدماغ المكشوف الجراحين في تحديد وتجنب مفتاح الكلام والمناطق الحركية. أما الحالة الأخرى، فهي عندما يتم زرع أقطاب كهربائية بشخص مصاب بالصرع لعدة أيام، لتحديد أصل هذه النوبات قبل التدخل الجراحي. يقول مارتن: «نملك كحد أقصى 20 دقيقةً وربما 30 دقيقةً لتجميع البيانات، وقتنا محدود جدًا».

أحدثت المجاميع التي سعت خلف البحوث الجديدة أكثر المعلومات قيمة بواسطة تغذية المعلومات للشبكات العصبية التي تعالج الأنماط المعقدة عن طريق تمرير المعلومات من خلال الطبقات (العقد) الحسابية. تتعلم الشبكات عن طريق ضبط الاتصالات بين العقد. وفي التجارب، تم عرض تسجيلات الكلام التي ينتجها شخص أو يستمع إليها على الشبكات بالتزامن مع قراءة بيانات نشاط الدماغ.

اعتمد فريق بحث ميسغراني على بيانات لخمسة أشخاص مصابين بالصرع. قد قامت شبكتهم بتحليل تسجيلات من القشرة السمعية (والتي تكون نشطةً خلال الكلام والإصغاء) وقد سمع هؤلاء المرضى تسجيلات لقصص وأشخاص يعدون الأرقام من صفر إلى تسعة. فيما بعد، يقوم الحاسوب بإعادة بناء الأعداد التي تم النطق بها سابقًا من البيانات العصبية فقط، وعندما (نطق) الحاسوب بالأعداد لمجموعة من المستمعين أحرز حينذاك دقةً تصل إلى 75%.قام فريق بحث آخر، بقيادة عالمة الحاسوب تانيا شولتز في جامعة بريمن في ألمانيا، بالاعتماد على بيانات أُخذت من 6 أشخاص يخضعون لجراحة إزالة ورم دماغي. التقط الميكروفون أصواتهم بينما كانوا يقرأون كلمات ذات مقطع واحد بصوت عال. في هذه الأثناء، يتم تسجيل مناطق تخطيط الكلام في المخ والمناطق الحركية بواسطة الأقطاب الكهربائية التي ترسل الأوامر للقناة الصوتية للفظ الكلمات.

قام علماء الحاسوب ميغيل أنجريك وكريستيان هرف، اللذان يعملان مع جامعة ماستريخت، بتدريب شبكة وضعت قراءات محددةً للتسجيلات الصوتية، ثم أعادت بناء الكلمات من بيانات الدماغ، غير مرئية سابقًا. وفقًا لنظام تقييم محوسب، كان حوالي 40% من الكلمات التي تم إنشاؤها بواسطة الحاسوب مفهومةً. وأخيرًا، قام جراح الأعصاب إدوارد تشانغ وفريقه في جامعة كاليفورنيا، سان فرانسيسكو بإعادة بناء جملة كاملة لثلاث مرضى مصابين بالصرع كانوا قد قرأوا بصوت عال، إذ تم التقاط نشاط الدماغ من مراكز الكلام والحركة. وفي اختبار أجري عبر الإنترنت، كان على 166 شخصًا اختيار أحد العبارات التي سمعوها من بين 10 اختيارات مكتوبة، تم تحديد بعض الجمل بشكل صحيح أكثر من 80% من الوقت. قام الباحثون بأكثر من ذلك، إذ أعادوا ابتكار جمل من تسجيل بيانات لأشخاص يقرأون بصمت، يقول هرف: «أي أن نكون على بعد خطوة واحدة من “المعين النطقي البديل – speech “prosthesis الذي يدور بخلدنا، وهذه حصيلة مهمة».

ومع ذلك، تقول ستيفاني ريس، عالمة الأعصاب في جامعة سان دييغو في كاليفورنيا، التي تدرس )إنتاج اللغة – Language production): «ما ننتظره حقًا هو كيف ستتفاعل هذه الطرق مع المرضى الذين لا يستطيعون التكلم»، يؤشر الدماغ عندما يتحدث شخص ما بصمت، أو يسمع صوته الذي يجول برأسه، ويكون غير مطابق لإشارات الكلام أو السمع. فمن دون أن يتطابق الصوت مع نشاط الكلام، قد يكون من الصعب على الحاسوب حتى أن يفرز متى يبدأ الكلام ومتى ينتهي. يقول هرف أن أحد هذه الأساليب ربما يتمثل في إعطاء ملاحظات لمستخدم حاسوب العقل الوسيط، إذا ما كان بإمكانهم الإصغاء لتفسير الكلام في الحاسوب في الوقت الفعلي، ربما قد يتمكنون من تعديل أفكارهم للحصول على النتائج التي يريدونها. مع ما يكفي من التدريب لكل من المستخدمين والشبكات العصبية، قد يجتمع الدماغ والحاسوب في المنتصف.

ترجمة: رفاه عبد الرزاق تدقيق: رزوق النجار

المصدر