الذكاء الاصطناعي يتيح لك الاستماع إلى الكتب بأصوات مختلفة

يمكن أن تحوّل تكنولوجيا الأصوات الاصطناعية كتابًا أو روايةً ما وتحولها إلى كتاب صوتي، ثم ترويها على منصات مثل سبوتيفاي وإليك طريقة عملها، وكيفية الاستماع لها.

تسجيل كتاب صوتي ليس مهمة سهلة، حتى لمؤديي الأصوات ذوي الخبرة، ولأن الطلب على الكتب الصوتية آخذ في الارتفاع، تُوفر منصات البث الكبيرة مثل سبوتيفاي مساحات إضافية لاستيعاب هذا النمو المتزايد. يستخدم الباحثون في معهد ماساتشوستس للتكنولوجيا MIT وشركة مايكروسوفت الذكاء الاصطناعي لإنشاء كتب صوتية من نصوص الإنترنت، في محاولة ابتكارية جامحة.

تعاون الباحثون في مشروع جديد طموح مع مشروع غوتنبرج، وهو أقدم وربما أكبر مستودع على الإنترنت في العالم للكتب الإلكترونية ذات الترخيص المفتوح، لإنتاج خمسة آلاف كتاب صوتي بالذكاء الإصطناعي، تشمل هذه المجموعة عناوين في الأدب الكلاسيكي.

نشر المتعاونون في سبتمبر 2023 مسودة حول جهودهم على موقع الأرشفة المفتوح arXiv.

يقول مارك هاميلتون، وهو أحد طلبة الدكتوراه في مختبر علوم الكمبيوتر والذكاء الاصطناعي بمعهد ماساتشوستس للتكنولوجيا والباحث الرئيسي في المشروع: «أردنا إنشاء كمية هائلة من الكتب الصوتية المجانية وإعادتها إلى المجتمع مرة أخرى. كان هناك الكثير من التقدم في تقنية الشبكات العصبية لتحويل النص المكتوب إلى كلام منطوق في الآونة الأخيرة، وهي خوارزميات تعتمد على هندسة الكومبيوتر المصممة على غرار الشبكات العصبية في الدماغ البشري، ويمكنها قراءة النصوص، وتبدو وكأن إنسانًا يقرأها».

ويضيف: «تلك الخوارزمية العصبية لتحويل النص إلى كلام هي المكون السحري الذي يجعل هذا ممكنًا. تُدرب الخوارزمية على ملايين الأمثلة من الكلام البشري، ومن ثم تُكلف بتقليدها. بإمكانها إنشاء أصوات مختلفة، وبلهجات مختلفة، وبلغات مختلفة، كذلك إصدار أصوات مخصصة بواسطة خمس ثوان فقط من تسجيل صوتي مسبق».

ويكمل هاميلتون: «تستطيع الخوارزمية قراءة أي نص تقدمه لها، وبسرعة مدهشة، وقادرة على تحويل ثماني ساعات من النصوص في بضع دقائق».

الجدير بالذكر أنه باستطاعة هذه الخوارزمية التعرف على التفاصيل الدقيقة للمقرئ مثل تغيير نبرة التحدث وطريقة الكلام التي يستخدمها البشر عند القراءة، كقراءة رقم الهاتف أو موقع إنترنت، وأين توجد مواضع التوقف المؤقت للكلام. تعتمد الخوارزمية على أعمال سابقة في الذكاء الاصطناعي لبعض المؤلفين المشاركين في الورقة البحثية في مايكروسوفت.

يوضح هاملتون الأمر قائلًا: «ترتكز هذه الخوارزمية كثيرًا على التعلم الآلي والشبكات العصبية، تمامًا مثل النماذج المستخدمة في تطبيقات الدردشة التي تُسمى «النماذج اللغوية الكبيرة»، فهي تأخذ النص وتملأ الفجوات، لكن الأمر مختلف هنا، فالمدخلات والمخرجات مختلفة. في حالتنا تأخذ الخوارزميات العصبية -التي تحول النصوص إلى كلام- المدخلات من النصوص، وترسله إلى نفس أنواع الخوارزميات المستخدمة في الدردشة، وعوضا عن كتابته نصًا فإنها تصدره صوتًا».

ويستطرد: «تحاول الخوارزميات توليد أصوات صحيحة للنص المدخل، ويمنحها ذلك أيضًا بعض المجال للاختيار، فيمكنها توليد نوع الصوت المناسب لحل المهمة بشكل جيد، كذلك باستطاعتها تغيير طريقة النطق، أو تجميعه، أو تعديله ليبدو طبيعيًا وبشريًا أكثر».

لتقييم أداء النموذج تستخدم أداة تدعى «دالة الفقد»، وهي دالة رياضية تستخدم لتقييم الفقد أو الخسارة بين النتائج المتوقعة للنموذج والمخرجات الفعلية، وبواسطتها نعرف إذا كان النموذج أدى مهمته بصورة جيدة أم لا. قد يؤدي تطبيق الذكاء الاصطناعي بهذه الطريقة إلى تسريع جهود مشاريع مثل ليبريفوكس Librivox، التي تستخدم حاليًا متطوعين لإنشاء كتب صوتية ذات ملكية عامة.

لم ينتهِ العمل بعد، فيجب اتخاذ خطوات من شأنها تحسين الجودة. أنشأ متطوعون بشريون الكتب الإلكترونية لمشروع جوتنبرج، وكل شخص ينجز الكتاب الإلكتروني يفعل ذلك على نحو مختلف قليلاً، قد يحتوي نصًا عشوائيًا في مواضع غير متوقعة، وقد يتغير الفهرس أو الرسوم التوضيحية من كتاب إلى آخر بتغير أرقام الصفحات التي يضعها صانعو الكتب الإلكترونية.

يلفت هاميلتون النظر إلى أن: «كل هذه المتغيرات المختلفة تؤدي فقط إلى نتائج غريبة لكتاب صوتي وأعمال لا ترغب في الاستماع إليها على الإطلاق. الهدف الأسمى هو تطوير مزيد من الحلول المرنة التي يمكنها استخدام الحدس البشري السليم لمعرفة ما يجب قراءته وما لا يجب من هذه الكتب، وفور الوصول لذلك فإن الأمل معقود باستخدامه بجانب أحدث التطورات في تكنولوجيا لغة الذكاء الإصطناعي لزيادة مجموعة الكتب الصوتية إلى 60 ألف كتاب في مشروع جوتنبرج، وربما حتى ترجمتها».

توجد مجموعة متنوعة من التطبيقات لهذا النوع من الخوارزميات، فيمكنها قراءة المسرحيات وتخصيص صوت مختلف لكل شخصية، كذلك تستطيع محاكاة كتاب صوتي كامل بصوتك وتقدمه هدية مميزة. مع ذلك، ومع وجود العديد من الطرق المفيدة إلى حد ما لاستخدام هذه التقنية، فقد أعرب الخبراء في السابق عن مخاوفهم بشأن سلبيات تكنولوجيا الأصوات المصطنعة، وإمكانية إساءة استخدامها.

يمكن بث جميع الكتب المقروءة بالذكاء الاصطناعي مجانًا في الوقت الحالي على منصات مثل سبوتيفاي وغوغل بودكاست وأبل بودكاست وإنترنت أركايف.

بناء الأساس لنظرية عامة عن الشبكات العصبونية

ترجمة: عمرو أحمد

تدقيق: باسل حميدي

المصدر