كيف يبدو صوت الساكسفون الصارخ؟ نموذج فوجاتو لديه الإجابة! بوسع نموذج الصوت الجديد للذكاء الاصطناعي من إنفيديا توليف أصوات لم تكن موجودة من قبل.

في هذه المرحلة، أي شخص يتابع أبحاث الذكاء الاصطناعي على دراية ممتدة بالنماذج التوليدية التي يمكنها توليف الكلام أو الموسيقى اللحنية من لا شيء سوى طلب النص. يبدو أن نموذج «فوجاتو» الذي كشفت عنه إنفيديا مؤخرًا سيذهب إلى خطوة أبعد، باستخدام أساليب تدريب تركيبية جديدة، وتقنيات الجمع على مستوى الاستدلال، لتحويل أي مزيج من الموسيقى والأصوات، لتوليف أصوات لم تكن موجودة من قبل.

في حين أن فوجاتو غير متاح للاختبار العام حتى الآن، يعرض موقعًا إلكترونيًا مخصصًا للعينات كيف يمكن استخدام فوجاتو لزيادة أو تقليل عدد من السمات والأوصاف الصوتية المميزة، ما ينتج عنه أي شيء، من صوت الساكسفون إلى أشخاص يتحدثون تحت الماء إلى صافرات سيارات الإسعاف. مع أن النتائج المعروضة قد تكون غير دقيقة إلى حد ما، تدعم المجموعة الواسعة من القدرات المعروضة هنا وصف إنفيديا لنموذج فوجاتو بأنه «سكين الجيش السويسري» للصوت، بمعنى تعدد الاستخدامات.

في ورقة بحثية توضيحية، يشرح الباحثون من إنفيديا الصعوبة في صياغة مجموعة بيانات تدريبية يمكنها الكشف عن علاقات ذات مغزى بين الصوت واللغة. في حين يمكن لنماذج اللغة القياسية غالبًا استنتاج كيفية التعامل مع التعليمات المختلفة من البيانات المستندة إلى النص، قد يكون من الصعب تعميم الأوصاف والسمات من الصوت دون إرشادات واضحة.

لذلك، استخدم الباحثون أحد النماذج اللغوية الكبيرة لتوليد نص برمجي بلغة بايثون ينشئ عددًا كبيرًا من التعليمات الحرة القائمة على القوالب التي تصف سمات صوتية مختلفة «مثلًا، الشخصية القياسية، والجمهور الشاب، والثلاثينيات، والشخصية المهنية». ثم ينشئون مجموعة من التعليمات المطلقة «مثلًا، اصنع صوتًا سعيدًا» والتعليمات النسبية «مثلًا، زد من سعادة هذا الصوت». تلك التعليمات التي يمكن تطبيقها على هذه الشخصيات.

إن الكثير من مجموعات البيانات الصوتية مفتوحة المصدر المستخدمة أساسًا لفوجاتو، لا تحتوي عمومًا على مثل هذه الأنواع من قياسات السمات المضمنة فيها على نحو افتراضي. لكن يستخدم الباحثون نماذج فهم الصوت الموجودة لإنشاء تسميات توضيحية مصطنعة لمقاطع التدريب بناءً على مطالباتهم، ما ينشئ أوصافًا باللغة الطبيعية يمكنها قياس السمات تلقائيًا، مثل الجنس والعاطفة وجودة الكلام. تُستخدم أدوات معالجة الصوت أيضًا لوصف مقاطع التدريب وتحديد كميتها على مستوى صوتي أعلى «مثلًا، تباين التردد الأساسي أو الصدى».

فيما يتعلق بالمقارنة، يعتمد الباحثون على مجموعات البيانات حيث يُثبت عامل واحد في حين يتغير عامل آخر، مثل القراءات العاطفية المختلفة لنفس النص، أو الآلات الموسيقية المختلفة التي تعزف نفس النوتات. بمقارنة هذه العينات عبر مجموعة كبيرة بما يكفي من عينات البيانات، يبدأ النموذج تعلم أنواع الخصائص الصوتية التي تميل إلى الظهور في الكلام السعيد مثلًا، أو التمييز بين صوت الساكسفون والناي.

بعد تشغيل مجموعة متنوعة من مجموعات الصوت مفتوحة المصدر المختلفة عبر هذه العملية، انتهى الباحثون بمجموعة بيانات، من نحو 20 مليون عينة منفصلة، تمثل ما لا يقل عن 50000 ساعة من الصوت.

بعيدًا عن التدريب، تذكر إنفيديا أيضًا نظام (ComposableART) من فوجاتو، لتحويل التمثيل الصوتي. عند تزويده بطلب لنص أو صوت، بوسع هذا النظام استخدام التوجيه الشرطي للتحكم على نحو مستقل وتوليد مجموعات من التعليمات والمهام، وتوليد مخرجات صوتية قابلة للتخصيص بدرجة عالية خارج التدريب. بعبارة أخرى، يمكنه الجمع بين سمات مختلفة من مجموعة التدريب الخاصة به لإنشاء أصوات جديدة تمامًا.

من الصعب فهم الرياضيات المعقدة الموصوفة في الورقة البحثية، لكن النتائج النهائية تسلط الضوء على كيفية استخدام ComposableART لإنشاء صوت، مثلًا، صوت طفل يضحك، أو عزف عذب على خلفية هطول أمطار رقيقة، أو آلات مصنع تهدر بصوت معدني.

مع أن بعض هذه الأمثلة مألوفة لآذاننا، يسعى فوجاتو جاهدًا لإنشاء أنواع من التركيبات، هي تمثيل للطريقة التي يتميز بها النموذج ويمزج بها بين بيانات صوتية متباينة للغاية، من مجموعات بيانات مفتوحة المصدر متعددة.

لعل الجزء الأهم في فوجاتو هو الطريقة التي يعامل بها كل سمة صوتية فردية بوصفها استمرارية قابلة للضبط، لا ثنائية. مثلًا، في مثال دمج صوت الغيتار والماء الجاري، تصبح النتيجة مختلفة تمامًا عند «تثقيل» صوت الغيتار أو الماء في مزيج فوجاتو. أيضًا تذكر إنفيديا أمثلة لضبط اللهجة الفرنسية لتكون أثقل أو أخف، أو تغيير درجة الحزن في مقطع صوتي.

إضافةً إلى ضبط السمات الصوتية المختلفة ودمجها، يمكن لفوجاتو أيضًا تنفيذ أنواع المهام الصوتية التي رأيناها في النماذج السابقة، مثل تغيير المشاعر في جزء من النص المنطوق، أو عزل المسار الصوتي في قطعة موسيقية، واكتشاف النغمات الفردية في قطعة موسيقية واستبدالها بمجموعة متنوعة من العروض الصوتية، أو اكتشاف إيقاع قطعة موسيقية وإضافة تأثيرات من الطبول مثلًا بطريقة تتناسب مع الإيقاع.

في حين يصف الباحثون فوجاتو بأنه مجرد خطوة أولى، تذكر إنفيديا بالفعل حالات الاستخدام، من النماذج الأولية للأغاني إلى تغيير درجات ألعاب الفيديو ديناميكيًا إلى استهداف الإعلانات. تسلط إنفيديا الضوء على أن نماذج مثل فوجاتو تُعد أداة يمكن استخدامها من قِبل فناني الصوت بدلًا من استبدال مواهبهم الإبداعية بالكامل.

اقرأ أيضًا:

الذكاء الاصطناعي يتيح لك الاستماع إلى الكتب بأصوات مختلفة

استنساخ الصوت لم يعد خيالًا علميًا!

ترجمة: لور عماد خليل

تدقيق: حسام التهامي

المصدر