يبدو ممثلو الصوت بالذكاء الاصطناعي أكثر إنسانية من أي وقت مضى - وهم مستعدون للتوظيف

مفهوم ممثل التعليق الصوتي لمنظمة العفو الدولية

السيدة تك | جيتي



تمتلئ مشاركة مدونة الشركة بحماس إعلان إعلاني أمريكي في التسعينيات. تصف WellSaid Labs ما يمكن للعملاء توقعه من ممثلي الصوت الرقمي الثمانية الجدد! توبين نشيط وبصير. بايج متوازنة ومعبرة. افا مصقولة ، واثقة من نفسها ، ومحترفة.

يعتمد كل واحد على ممثل صوتي حقيقي ، تم الحفاظ على شكله (بموافقة) باستخدام الذكاء الاصطناعي. يمكن للشركات الآن ترخيص هذه الأصوات لتقول ما تريده. إنهم يقومون ببساطة بإدخال بعض النصوص في المحرك الصوتي ، وسوف يقوم الخارج بتخزين مقطع صوتي واضح لأداء الصوت الطبيعي.





مختبرات WellSaid هي شركة ناشئة مقرها سياتل انبثقت عن معهد ألين للذكاء الاصطناعي وهي مؤسسة بحثية غير ربحية ، وهي أحدث شركة تقدم أصواتًا للذكاء الاصطناعي للعملاء. في الوقت الحالي ، يتخصص في أصوات مقاطع الفيديو الخاصة بالتعليم الإلكتروني للشركات. الشركات الناشئة الأخرى تصنع أصواتًا لـ المساعدين الرقميين و مشغلي مركز الاتصال وحتى شخصيات ألعاب الفيديو .

لماذا تعتبر العملة المشفرة سيئة في عام 2020
KH · ممثل صوت WellSaid AI بأسلوب ترويجي

منذ وقت ليس ببعيد ، كان لمثل هذه الأصوات العميقة سمعة سيئة لاستخدامها في مكالمات احتيال و خداع الإنترنت . لكن تحسين جودتها منذ ذلك الحين أثار اهتمام عدد متزايد من الشركات. جعلت الاختراقات الحديثة في التعلم العميق من الممكن تكرار العديد من التفاصيل الدقيقة للخطاب البشري. تتوقف هذه الأصوات وتتنفس في جميع الأماكن الصحيحة. يمكنهم تغيير أسلوبهم أو عواطفهم. يمكنك اكتشاف الحيلة إذا تحدثوا لفترة طويلة جدًا ، ولكن في المقاطع الصوتية القصيرة ، أصبح بعضها لا يمكن تمييزه عن البشر.

أصوات الذكاء الاصطناعي هي أيضًا رخيصة الثمن وقابلة للتطوير ويسهل التعامل معها. على عكس تسجيل ممثل صوت بشري ، يمكن للأصوات الاصطناعية أيضًا تحديث نصها في الوقت الفعلي ، مما يفتح فرصًا جديدة لتخصيص الإعلانات.



لكن ظهور الأصوات المزيفة الواقعية للغاية لا يخلو من العواقب. لقد تُرِك ممثلو الصوت البشري ، على وجه الخصوص ، للتساؤل عما يعنيه هذا بالنسبة لسبل عيشهم.

كيف تزيف صوت

كانت الأصوات الاصطناعية موجودة منذ فترة. لكن القديم منها اصوات الاصلي سوريا و أليكسا ، قم ببساطة بلصق الكلمات والأصوات معًا لتحقيق تأثير آلي ثقيل. كان جعلهم يبدون أكثر طبيعية مهمة يدوية شاقة.

لقد غير التعلم العميق ذلك. لم يعد مطورو الصوت بحاجة إلى إملاء سرعة الخطاب الذي تم إنشاؤه أو نطقه أو نغمة صوته بدقة. بدلاً من ذلك ، يمكنهم إدخال بضع ساعات من الصوت في خوارزمية وجعل الخوارزمية تتعلم هذه الأنماط من تلقاء نفسها.

التباعد الاجتماعي حتى عام 2021

إذا كنت بيتزا هت ، فأنا بالتأكيد لا أستطيع أن أبدو مثل دومينوز ، وبالتأكيد لا يمكنني أن أبدو مثل بابا جون.



روبال باتيل ، المؤسس والرئيس التنفيذي لشركة VocaliD

على مر السنين ، استخدم الباحثون هذه الفكرة الأساسية لبناء محركات صوتية أكثر تعقيدًا. تستخدم WellSaid Labs الوحيدة التي تم إنشاؤها ، على سبيل المثال ، نموذجين أساسيين للتعلم العميق. يتنبأ الأول ، من مقطع من النص ، بالضربات الواسعة لما سيبدو عليه المتحدث - بما في ذلك اللكنة والنبرة والجرس. والثاني يملأ التفاصيل ، بما في ذلك الأنفاس وطريقة رنين الصوت في بيئته.

يتطلب صنع صوت اصطناعي مقنع أكثر من مجرد الضغط على زر. جزء مما يجعل الصوت البشري إنسانيًا هو تناقضه وتعبيره وقدرته على تقديم نفس الأسطر بأساليب مختلفة تمامًا ، اعتمادًا على السياق.

يتضمن التقاط هذه الفروق الدقيقة العثور على الممثلين الصوتيين المناسبين لتوفير بيانات التدريب المناسبة والضبط الدقيق لنماذج التعلم العميق. يقول WellSaid إن العملية تتطلب ساعة أو ساعتين على الأقل من الصوت وبضعة أسابيع من العمل لتطوير نسخة طبق الأصل اصطناعية تبدو واقعية.

الأرض مثل الكواكب القريبة منا
KH · وكيل خدمة عملاء يشبه KH · ممثل صوتي مشابه لأسلوب المحادثة

نمت أصوات الذكاء الاصطناعي بشعبية خاصة بين العلامات التجارية التي تتطلع إلى الحفاظ على صوت ثابت في ملايين التفاعلات مع العملاء. مع انتشار مكبرات الصوت الذكية اليوم ، وظهور وكلاء خدمة العملاء الآليين وكذلك المساعدين الرقميين المدمجين في السيارات والأجهزة الذكية ، قد تحتاج العلامات التجارية إلى إنتاج ما يزيد عن مائة ساعة من الصوت شهريًا. لكنهم أيضًا لم يعودوا يرغبون في استخدام الأصوات العامة التي توفرها تقنية تحويل النص إلى كلام التقليدية - وهو اتجاه تسارع أثناء الوباء مع تخطي المزيد والمزيد من العملاء للتفاعل داخل المتجر للتفاعل مع الشركات افتراضيًا.

إذا كنت أنا بيتزا هت ، فأنا بالتأكيد لا أستطيع أن أبدو مثل دومينوز ، وبالتأكيد لا يمكنني أن أبدو مثل بابا جونز ، كما يقول روبال باتيل ، الأستاذ في جامعة نورث إيسترن والمؤسس والرئيس التنفيذي لشركة VocaliD ، التي تعد ببناء أصوات مخصصة التي تتطابق مع هوية العلامة التجارية للشركة. فكرت هذه العلامات التجارية في ألوانها. لقد فكروا في الخطوط الخاصة بهم. الآن عليهم البدء في التفكير في الطريقة التي يبدو بها صوتهم أيضًا.

كارين هاو ، MIT Tech Review · نموذج إعلان VocaliD بصوت ذكر كارين هاو ، MIT Tech Review · نموذج إعلان VocaliD بصوت أنثوي

في حين أن الشركات كانت تضطر لتوظيف ممثلين صوتيين مختلفين لأسواق مختلفة - الشمال الشرقي مقابل جنوب الولايات المتحدة ، أو فرنسا مقابل المكسيك - يمكن لبعض شركات الذكاء الاصطناعي الصوتية التلاعب باللهجة أو تبديل لغة الصوت الواحد بطرق مختلفة. يفتح هذا إمكانية تكييف الإعلانات على منصات البث اعتمادًا على من يستمع ، ولا يغير فقط خصائص الصوت ولكن أيضًا الكلمات التي يتم التحدث بها. يمكن لإعلان البيرة أن يخبر المستمع بالتوقف عند حانة مختلفة اعتمادًا على ما إذا كانت تعرض في نيويورك أو تورنتو ، على سبيل المثال. تقول شركة Resemble.ai ، التي تصمم أصواتًا للإعلانات والمساعدين الأذكياء ، إنها تعمل بالفعل مع العملاء لإطلاق مثل هذه الإعلانات الصوتية المخصصة على Spotify و Pandora.

تشهد صناعات الألعاب والترفيه أيضًا الفوائد. شركة Sonantic المتخصصة في الأصوات العاطفية التي يمكن أن تضحك وتبكي أو تهمس وتصرخ ، تعمل مع صانعي ألعاب الفيديو واستوديوهات الرسوم المتحركة لتوفير الأصوات الصوتية لشخصياتهم. يستخدم العديد من عملائها الأصوات المركبة فقط في مرحلة ما قبل الإنتاج والتحول إلى ممثلين صوتيين حقيقيين للإنتاج النهائي. لكن يقول Sonantic أن القليل منهم بدأوا في استخدامها طوال العملية ، ربما لشخصيات ذات سطور أقل. عمل موقع Resemble.ai وآخرون أيضًا مع الأفلام والبرامج التلفزيونية لإصلاح أداء الممثلين عندما يتم تشويه الكلمات أو لفظها بشكل خاطئ.

لكن هناك قيودًا على المدى الذي يمكن أن يصل إليه الذكاء الاصطناعي. لا يزال من الصعب الحفاظ على واقعية الصوت على فترات زمنية طويلة قد تكون مطلوبة لكتاب صوتي أو بودكاست. وهناك قدرة محدودة على التحكم في أداء صوت الذكاء الاصطناعي بنفس الطريقة التي يمكن للمخرج أن يوجه بها المؤدي البشري. يقول زهيب أحمد ، المؤسس والرئيس التنفيذي لشركة Resemble.ai ، إننا ما زلنا في الأيام الأولى من الكلام الاصطناعي ، ويقارنه بالأيام التي كانت تستخدم فيها تقنية CGI في الأساس لعمليات اللمسات الأخيرة بدلاً من إنشاء عوالم جديدة تمامًا من الشاشات الخضراء. .

لمسة إنسانية

بعبارة أخرى ، ممثلو الصوت البشري لم يختفوا بعد. لا يزال من الأفضل أن يقوم البشر بتنفيذ المشاريع التعبيرية والإبداعية والطويلة. ولكل صوت اصطناعي تصنعه هذه الشركات ، يحتاج الممثل الصوتي أيضًا إلى توفير بيانات التدريب الأصلية.

لكن قلق بعض الممثلين على نحو متزايد بشأن سبل عيشهم ، كما يقول متحدث باسم SAG-AFTRA ، النقابة التي تمثل الممثلين الصوتيين في الولايات المتحدة. إذا لم يكونوا خائفين من أن يتم تشغيلهم آليًا بواسطة الذكاء الاصطناعي ، فإنهم قلقون بشأن التعويض غير العادل أو فقدان السيطرة على أصواتهم ، والتي تشكل علامتهم التجارية وسمعتهم.

هذا هو الآن موضوع الدعوى ضد TikTok التي قدمتها الممثلة الصوتية الكندية Bev Standing ، والتي تدعي أن ميزة التعليق الصوتي المضمنة في التطبيق تستخدم نسخة تركيبية من صوتها دون إذنها. تجربة المكانة تعكس أيضًا تجربة سوزان بينيت ، الصوت الأصلي لـ American Siri ، الذي تم الدفع له مقابل تسجيلاتها الأولية ولكن ليس مقابل الاستخدام المستمر لشبهها الصوتي على ملايين أجهزة Apple.

تتطلع بعض الشركات إلى أن تكون أكثر مسؤولية في كيفية تفاعلها مع صناعة التمثيل الصوتي. يقول ممثل SAG-AFTRA إن أفضلهم قد اتصلوا بالنقابة لاكتشاف أفضل طريقة لتعويض الممثلين الصوتيين واحترامهم عن عملهم.

نيت الفضة التنبؤ 2016 الانتخابات الرئاسية
يبشر هؤلاء البشر المزيفون المخيفون بعصر جديد في الذكاء الاصطناعي

هل تحتاج إلى مزيد من البيانات للتعلم العميق؟ ستقوم شركات البيانات التركيبية بإعدادها لك.

يستخدم العديد منهم الآن نموذج تقاسم الأرباح للدفع للجهات الفاعلة في كل مرة يقوم فيها العميل بترخيص صوتهم الاصطناعي المحدد ، مما أدى إلى فتح تيار جديد من الدخل السلبي. يشرك البعض الآخر الجهات الفاعلة في عملية تصميم تشابه الذكاء الاصطناعي الخاص بهم ومنحهم حق النقض على المشاريع التي سيتم استخدامها فيها. كما تضغط SAG-AFTRA من أجل تشريع لحماية الممثلين من النسخ المقلدة غير المشروعة لأصواتهم.

ولكن بالنسبة إلى باتيل من VocaliD ، فإن الهدف من أصوات الذكاء الاصطناعي في النهاية ليس تكرار الأداء البشري أو أتمتة العمل الصوتي الحالي بعيدًا. بدلاً من ذلك ، فإن الوعد هو أنه يمكنهم فتح إمكانيات جديدة تمامًا. ماذا لو في المستقبل ، كما تقول ، يمكن استخدام الأصوات الاصطناعية لتكييف المواد التعليمية عبر الإنترنت بسرعة مع جماهير مختلفة؟ إذا كنت تحاول الوصول ، دعنا نقول ، إلى مجموعة من الأطفال داخل المدينة ، ألن يكون رائعًا إذا بدا هذا الصوت بالفعل كما لو كان من مجتمعهم؟

يخفي

التقنيات الفعلية

فئة

غير مصنف

تكنولوجيا

التكنولوجيا الحيوية

سياسة التكنولوجيا

تغير المناخ

البشر والتكنولوجيا

وادي السيليكون

الحوسبة

مجلة Mit News

الذكاء الاصطناعي

الفراغ

المدن الذكية

بلوكشين

قصة مميزة

الملف الشخصي للخريجين

اتصال الخريجين

ميزة أخبار معهد ماساتشوستس للتكنولوجيا

1865

وجهة نظري

77 Mass Ave

قابل المؤلف

ملامح في الكرم

شوهد في الحرم الجامعي

خطابات الخريجين

أخبار

انتخابات 2020

فهرس With

تحت القبه

خرطوم الحريق

قصص لانهائية

مشروع تكنولوجيا الوباء

من الرئيس

غلاف القصه

معرض الصور

موصى به