تدمر شركة أوبن إي آي واقعية الإعلام من خلال سورا، التي تُعد تقنية لتوليد فيديوهات مدعومة بنظام الذكاء الاصطناعي البصري الواقعي.

أعلنت شركة أوبن إيه آي عن خاصيتها الجديدة سورا، وهي نظام تحويل النص المكتوب إلى فيديو عالي الدقة تصل مدته إلى 60 ثانية استنادًا إلى الوصف المكتوب.

مع أنها ما تزال مجرد معاينة بحثية لم تُختبر بعد، فإنها تستطيع إنشاء فيديو بالذكاء الاصطناعي -من دون صوت حتى الآن- بدقة واتساق أكبر من أي نموذج توليد فيديوهات نصي متاح حاليًا، ما يثير القلق.

كتبت جوانا ستيرن، المراسلة المختصة بالتكنولوجيا في صحيفة وول ستريت: «سعدت بمعرفتكم جميعًا، أتمنى أن تخبروا أحفادكم عن مقاطع الفيديو الخاصة بي والجهود التي بذلناها فعليًا لتسجيلها». وكتب توم وارين في موقع ذا فيرج: «قد تكون هذه نقطة تحول للذكاء الاصطناعي». وغرّد الصحفي ماركيس براونلي: «هذه فيديوهات أنشأها الذكاء الاصطناعي، إذا لم يثر هذا الأمر قلقنا، فما الذي سيفعل؟».

مع أن هذا الذعر أو القلق سيصبح عاديًا يومًا ما، فإن جيلًا من الأشخاص يكبرون معتقدين بأن فيديوهات واقعية كهذه هي بالتأكيد مصورة بواسطة الكاميرات. مثلًا، عندما زُيّف فيديو في أحد أفلام هوليوود، استغرق الأمر كثيرًا من الوقت والمال والجهد ولم تكن النتائج مثالية، ما منح الأشخاص حدًا أدنى من الاطمئنان بأن ما يرونه قد يكون حقيقيًا، أو على الأقل لا يخلو من الحقيقة.

سيُسلط الضوء في وقتنا الحالي على التكنولوجيا الحديثة مثل سورا أكثر من غيرها من وسائل الإعلام المتعارف عليها، إذ قد يكون كل فيديو نراه عبر الإنترنت، سواء أكان فيديو واقعيًا أم تاريخيًا، مزيفًا بالكامل.

لذلك، فإن كيفية مواجهة مجتمعاتنا لتلك التكنولوجيا مع الحفاظ على الثقة بالتواصل عن بعد أمر يتجاوز مجال هذه المقال بكثير.

تُطلق شركة أوبن إيه آي على اللحظة التي يصبح فيها من الصعب التمييز بين الحقيقة والخيال في وسائل الإعلام اسم «التفرد الثقافي»، مع أن الشركة تسير على الطريق الصحيح لتجسيد هذا التنبؤ في وقت أقرب من توقعاتنا.

وجدت شركة أوبن إيه آي أن سورا –مثل نماذج الذكاء الاصطناعي الأخرى، التي تستخدم بنية المحولات- تتناسب مع الحوسبة المتاحة. فنظرًا لوجود أجهزة كومبيوتر أقوى، قد تتحسن دقة فيديو الذكاء الاصطناعي كثيرًا بمرور الوقت. بمعنى آخر، فإن ما لدينا حاليًا هو النموذج الأسوأ لما يستطيع الذكاء الاصطناعي توليده على الإطلاق، إذ لا يوجد صوت متزامن حتى الآن، لكن قد تُحل تلك المشكلة في النماذج المستقبلية.

كيف نجحت شركة أوبن إيه آي في ذلك؟

تطور الذكاء الاصطناعي بسرعة فائقة في مجال تركيب الفيديوهات وإنتاجها خلال العامين الماضيين، إذ حققت شركة أوبن إيه آي نماذج تحويل النص إلى فيديو لأول مرة في سبتمبر 2022، باستخدام ميزة Meta-A-Video المقدمة من شركة ميتا التقنية. وبعد شهر، عرضت جوجل تقنية إيماجن Imagen. وقبل 11 شهرًا فقط، انتشر فيديو بالذكاء الاصطناعي للممثل ويل سميث وهو يتناول السباغيتي. في شهر مايو من العام الماضي، ساعد نظام Gen-2 من Runway -الذي كان سبّاقًا في مجال تحويل النص إلى فيديو- في صياغة إعلان تجاري مزيف للجعة، مليء بالوحوش المترنحة مع عدم تزامن مدته ثانيتان. في نماذج توليد الفيديوهات السابقة، يظهر الأشخاص ويختفون من الواقع بسهولة، وتتمايل أطرافهم كالسباغيتي، إذ لا يبدو أن للقوانين الفيزيائية في تلك الفيديوهات أهمية.

لكن تقنية سورا (السماء باليابانية) تبدو مختلفة تمامًا، إذ تتمتع بدقة عالية (1920 × 1080)، ويمكنها أيضًا توليد فيديو بتناسق زمني، مع الحفاظ على الموضوع ذاته بمرور الوقت، ويستمر مدةً تصل إلى 60 ثانية، مع الحفاظ على الشروحات النصية بدقة كبيرة. فكيف تمكنت شركة أوبن إيه آي من تحقيق ذلك؟

ليس من عادة أوبن إيه آي مشاركة تفاصيل خاصّة بتقنياتها الفنية مع الصحافة، لذلك تُركنا للتكهّنات والنظريات من الخبراء، مع بعض المعلومات التي تقدمها الشركة للجمهور.

بحسب أوبن إيه آي، فإن تقنية سورا تُعد نموذج انتشار، يشبه إلى حد كبير كلًا من Stable Diffusion وDALL-E3. فهو يولّد فيديو بدءًا بضوضاء ثم يتحول تدريجيًا بإزالة الضوضاء عبر خطوات عدة، إذ يتعرف على الأشياء والمفاهيم المُدرجة في التوجيه المكتوب، ويستخرجها من الضوضاء، حتى تظهر سلسلة مترابطة من إطارات الفيديو.

بوسع سورا إنشاء مقاطع فيديو قصيرة دفعة واحدة بتحليل الشرح المكتوب، أو توسيع مقاطع الفيديو الحالية، أو توليد فيديوهات من صور ثابتة. بهذا يتحقق الاتساق الزمني بمنح النموذج استبصارًا لإطارات عدة في وقت واحد، ما يؤدي إلى حل مشكلة الحفاظ على الموضوع، حتى لو خرج من نطاق الرؤية مؤقتًا.

تصف أوبن إيه آي الفيديوهات بأنها تجميع لمجموعات أصغر من البيانات تُسمى التصحيحات Patches، وهي مشابهة للتوكينز (Tokens)، وهي مجموعة من الرموز في GPT-4.

وفقًا لأوبن إيه آي: «بتوحيد كيفية تمثيل البيانات، يمكننا تدريب محولات الانتشار على نطاق أوسع من البيانات البصرية مما كان متاحًا في السابق، إذ تمتد لفترات زمنية مختلفة، مع تحقيق الدقة والوضوح، ونسب العرض إلى الارتفاع».

من الأدوات المهمة لدى أوبن إيه آي أن استخدامها لنماذج الذكاء الاصطناعي يتضاعف، إذ تساعد النماذج السابقة على إنشاء نسخ أعقد. يتبع نظام سورا التعليمات جيدًا كونه مثل نظام DALL-E 3، إذ يستخدم التسميات التوضيحية المنُتجة بالذكاء الاصطناعي التي تصف المشاهد في بيانات التدريب، التي تولدها نماذج الذكاء الاصطناعي الأخرى، مثل GPT-4V.

ليس هذا فحسب، إذ كتبت أوبن إيه آي: «يعمل نظام سورا بوصفه أساسًا للنماذج التي يمكنها فهم العالم الحقيقي ومحاكاته، وهي قدرة نعتقد أنها ستكون نقطة تحول هامة نحو تحقيق الذكاء الاصطناعي العام».

تساءل الكثيرون عن البيانات التي استخدمتها أوبن إيه آي لتدريب سورا، لكن لم تكشف أوبن إي آي عن مجموعة البيانات الخاصة بها.

بناءً على ما شاهدنا في النتائج التجريبية، ربما تستخدم أوبن إيه آي بيانات الفيديو باستخدام نماذج الذكاء الاصطناعي المُنشأة في محركات ألعاب الفيديو، إضافة إلى مصادر فيديو حقيقية، مثل فيديوهات يوتيوب وسواه.

كتب الدكتور جيم فان من شركة إنفيديا، المتخصص في تدريب الذكاء الاصطناعي باستخدام البيانات الاصطناعية: «لن يكون مفاجئًا أن تكون سورا مُدرّبة على كثير من البيانات الاصطناعية باستخدام محرك أنريل إنجن 5، فمن الطبيعي أن يسير الأمر على هذا النحو». لكن يظل هذا مجرد تخمين حتى تؤكده أوبن إيه آي.

محاكاة سورا للعالم:

تزامنًا مع إطلاق سورا، أصدرت شركة أوبن إيه آي وثيقة تقنية بعنوان «نماذج توليد الفيديو بوصفها أجهزة محاكاة عالمية»، ويستدعي هذا التحليل التقني التفصيلي استكشافًا أعمق مما هو متاح لدينا من وقت أو مساحة. أما عن كيفية محاكاة سورا للعالم داخليًا، فإن ذلك يثير تكهنات علماء الكمبيوتر مثل فان حيال أمور أعمق.

كتب فان: «إذا كنت تعتقد أن تقنية سورا المقدمة من شركة أوبن إيه آي هي لعبة إبداعية مثل DALLE، فكّر مرةً أخرى، إذ تُعد تقنية سورا محركًا فيزيائيًا يعتمد على البيانات. إنها تقنية محاكاة لعوالم عدة، سواء كانت حقيقية أم خيالية. إذ يتعلم المحاكي عمليات العرض المعقدة، والفيزياء البديهية، والتفكير طويل الأمد، والأسس الدلالية، إضافةً إلى بعض الرياضيات، للحد من الضوضاء والتدرج».

كتبت أوبن إيه آي: «وجدنا أن نماذج الفيديو تُظهر عددًا من القدرات الناشئة المثيرة للاهتمام عند تدريبها على نطاق واسع، إذ تُمكّن هذه القدرات سورا من محاكاة بعض جوانب الأشخاص، والحيوانات، والبيئات من العالم الطبيعي. وتنشأ هذه الخصائص من دون أي تحيزات استقرائية صريحة للبُعد الثلاثي والأجسام، فهي مجرد ظواهر ذات أبعاد مجردة».

يمكن لتقنية سورا محاكاة لعبة ماين كرافت إلى حد ما، ما يقربنا من إمكانات تُسمى «العرض العصبي» في ألعاب الفيديو، فبدلًا من تقديم مليارات المضلعات التي صنعها الفنانون يدويًا، قد تولد وحدات تحكم ألعاب الفيديو في المستقبل تدفقات فيديو تفاعلية باستخدام تقنيات الانتشار في الوقت ذاته.

مع ذلك، لا تُعد سورا تقنية مثالية، إذ أشارت شركة أوبن إيه آي إلى نقاط ضعف سورا في وثيقتها التقنية. كتبت الشركة: «لا تمثل سورا بدقة الفيزياء في كثير من التفاعلات الأساسية مثل تحطيم الزجاج، أو في التفاعلات الأخرى مثل تناول الطعام، إذ لا تؤدي دائمًا إلى التغيرات الصحيحة في حالة الجسم، إضافةً إلى الحالات التي نعدّها حالات فشل، مثل عدم الاتساق في حالات التطور للعينات طويلة الأمد، والمظاهر التلقائية للأشياء».

أيضًا توجد شكوك حول أن التكنولوجيا الشبيهة بسورا قد لا تكون الحل الشامل لتوليد الفيديو. كتب عالم الحاسوب جرادي بوش: «سيوجد بالتأكيد بعض حالات الاستخدام الاقتصادية والإبداعية المثيرة للاهتمام، لكنني أرى تشابهًا قويًا مع جهود مجال النظام من دون كود/ كود المنخفض. لكن في كل تلك المجالات البصرية والبرمجية، من السهل إنتاج عروض توضيحية مبهرة، إضافة إلى سهولة أتمتة الأمور البسيطة نسبيًا».

ينتاب بعض الأشخاص القلق بشأن العواقب المترتبة على صناعة الأفلام، ومصدر بيانات التدريب، والمعلومات الخاطئة أو الكاذبة التي قد تنبثق من القدرة على توليد مقاطع فيديو عالية الدقة، والتعقيد البرمجي بحسب الطلب النصي.

نتيجةً لذلك، تعمل شركة أوبن إيه آي على فحص سورا بدقة -من خلال اختبارات تجريبية- باستخدام خبراء في المجال، لتجنب نشر المعلومات الخاطئة، والمحتوى الذي يحض على الكراهية والتحيز، قبل إصداره للجمهور.

اقرأ أيضًا:

بعد أن أصبح قادرًا على توليد الفيديو، هل سيصبح الذكاء الاصطناعي خطرًا على البشرية؟

شريحة جديدة تفتح الباب أمام حوسبة الذكاء الاصطناعي بسرعة الضوء

ترجمة: زين العابدين بدور

تدقيق: ريمي سليمان

المصدر