گوینده ورزشی هوش مصنوعی به تدریج در نقشهای پخش ورزشی وارد میشوند، به طوری که مسابقات بزرگی مانند گلف مسترز و تنیس ویمبلدون از این فناوری برای روایت خودکار برخی ویدئوهای منتشر شده در وبسایتها و اپلیکیشنهای تورنمنت استفاده کردهاند.
در ماه ژوئن، یوروویژن اسپورت، یکی از بخشهای اتحادیه پخش اروپا، از صدای هوش مصنوعی برای ارائه خلاصهها بین تفسیرهای زنده در مسابقات تیمی دو و میدانی اروپا در لهستان استفاده کرد. به گفته نوآ سیکن، معاون رئیس همکاریهای ورزشی و سرگرمی IBM، به زودی مسابقات اوپن آمریکا نیز از این فناوری استفاده خواهد کرد. این شرکت با مسترز و ویمبلدون همکاری کرده است تا گوینده ورزشی هوش مصنوعی مناسب را توسعه دهد.
استفاده از هوش مصنوعی در رویدادهای پخش ورزشی تنها یکی از نمونههای اخیر است که نشان میدهد چگونه این فناوری به سرعت برای وظایفی که میتوانند توسط انسانها انجام شوند، جای پا پیدا میکند. این موضوع نگرانیهایی در مورد امنیت شغلی ایجاد کرده و سوالاتی در مورد عملکرد هوش مصنوعی در مقایسه با عملکرد انسانی مطرح میکند.
گوینده ورزشی هوش مصنوعی جایگزین انسان نمی شود
به گفته نمایندگان یوروویژن اسپورت و IBM که با NBC News صحبت کردند، هوش مصنوعی جایگزین مفسران واقعی نشده است، بلکه بخشهای خستهکننده کار، مانند خلاصه کردن رویدادها و تفسیر بازی به بازی در مسابقات کم اهمیتتر را انجام میدهد. به گفته سیکن، فناوری هوش مصنوعی به سرعت تفسیر صوتی مناسب را تولید میکند و میتواند رویدادهایی را پوشش دهد که قبلاً تفسیر یا گوینده ورزشی نداشتند.
تفسیر هوش مصنوعی در مسابقات مسترز و ویمبلدون با استفاده از پلتفرم هوش مصنوعی مولد watsonx IBM انجام شد. به گفته IBM، هوش مصنوعی مولد، اجرای تفسیری مناسب را برای بیش از ۲۰,۰۰۰ کلیپ ویدئویی در اپلیکیشن مسترز تولید کرد. دستیابی به همین عملکرد با استفاده از مفسران واقعی دشوار خواهد بود.
برخی معتقدند که با وجود اینکه هوش مصنوعی برخی از فشارهای کاری مرتبط با پخش برنامه های ورزشی را کاهش میدهد، گوینده ورزشی هوش مصنوعی ممکن است در آینده جایگزین انسانها شود.
اما سیکن گفت که هوش مصنوعی برای کمک به گویندگان ورزشی واقعی آمده است، نه برای جایگزینی آنها. با وجود اینکه فناوریهای پیشرفته باعث شدهاند که صدای هوش مصنوعی به طور فزایندهای واقعگرایانه به نظر برسد. او گفت: «همانطور که ما نمیخواهیم انسانها را جایگزین کنیم، نمیخواهیم صداهایی که استفاده میکنیم را بیش از حد انسانی کنیم.»
به گفته سیکن، در ویمبلدون چند صدای مصنوعی برای تفسیر هوش مصنوعی استفاده شد و در مسترز یک صدای مصنوعی به کار رفت. او گفت که در هر دو رویداد تماشاگران نظرات مثبتی در مورد تفسیر هوش مصنوعی داشتند.
با این حال مفسران هوش مصنوعی در ویمبلدون و مسترز در شبکههای اجتماعی از سوی مخاطبان ورزشی به دلیل تحویل شبیه ربات مورد انتقاد قرار گرفتند. یک کاربر توییتر در موضوعی در مورد یک ویدیو، تفسیر هوش مصنوعی گلف را «یکنواخت، بدون احساسات و تغییرات صوتی» توصیف کرد.
کاربر دیگری در توییتر نوشت: «استفاده ویمبلدون از هوش مصنوعی در ویدیوهای برجسته کاملاً بیاحساس است، فاقد محتوا یا هرگونه حس زمانی در تفسیر. کاملاً مشخص است که این هوش مصنوعی است.»
کوین سیلوستر، مفسر ورزشی با بیش از ۲۵ سال سابقه کاری که شامل پوشش مسابقات گلف PGA Tour و میزبانی در WGRZ، یک شبکه وابسته به NBC است، گفت که تفسیر هوش مصنوعی در مسترز فاقد تکنیکهای تفسیر مانند تغییر لحن صدا برای نگهداشتن مخاطبان درگیر با بازی بود.
او گفت: «این واقعاً یک هنر است. تخصصی در این کار وجود دارد که از طریق تجربه و حضور در محل به دست میآید و این را به بیننده یا شنونده منتقل میکند. و من فکر نمیکنم که هیچ کامپیوتری بتواند جایگزین آن شود.»
در مسابقات تیمی دو و میدانی اروپا، گوینده ورزشی هوش مصنوعی از هانا انگلند، مفسر و ورزشکار سابق، کپی شد که به دلیل شهرت عمومی و صدای شناختهشدهاش برای شنوندگان انتخاب شده بود. به گفته کریستوف پاسکیه، رئیس بخش صوت و نوآوری یوروویژن اسپورت، به لطف کپیبرداری صدا، تشخیص صدای ‘هوش مصنوعی هانا’ و صدای واقعی هانا انگلند دشوار است، بنابراین پخشکننده اعلامیههایی قبل از صحبت هوش مصنوعی اضافه کرده است تا به شنوندگان اطلاع دهد که آنچه میشنوند صدای واقعی یک انسان نیست.
پاسکیه گفت: «برای ما این موضوع حیاتی است زیرا میخواهیم به شنوندگان احترام بگذاریم، نمیخواهیم آنها را فریب دهیم. و میخواهیم آنها را آموزش دهیم. میخواهیم فرصتی به آنها بدهیم تا به طور کامل مزایا و معایب، فواید و خطرات هوش مصنوعی را درک کنند.»
او گفت که انگلند برای ارائه صدای خود جبران مالی دریافت نکرده و از افشای جزئیات مالی مربوط به پروژه صدای هوش مصنوعی خودداری کرد. او گفت که ارزش افزوده هوش مصنوعی هنوز متقاعد کننده نیست.
پاسکیه گفت: «از نظر اقتصادی، این کار بسیار وقتگیر است و هزینه زیادی دارد. بنابراین فقط یک آزمایش بود. ما در ماه آینده در بین خودبحث و بررسی خواهیم کرد و سپس خواهیم دید که آیا آماده ادامه استفاده از هوش مصنوعی هستیم یا نه.»
سخنگوی IBM از اظهار نظر در مورد جزئیات ترتیبات مالی خود با شرکای خودداری کرد. پاسکیه گفت که هوش مصنوعی به کاهش بار کاری سخت مفسران کمک میکند. قالب تورنمنتهای بزرگ نیاز به ارائه تفسیر زنده توسط حرفهایها به مدت ۹ تا ۱۰ ساعت در روز طی چندین روز متوالی دارد.
او گفت: «در گذشته، بعد از یک روز طولانی، از مفسر می خواستند که یک ساعت اضافی در جایگاه تفسیر بماند تا تمام محتوایی را که ما با هوش مصنوعی برای تولید ویدئوهای برجسته تولید کردهایم، ضبط کند. [این موضوع] بسیار دردناک بود.»
سیکن گفت که اگر یک تورنمنت تنیس ۱۴ مسابقه داشته باشد، «این به ۱۴ تیم تولید و ۱۴ مجموعه مفسر نیاز دارد تا همه تفسیرهای اصلی را انجام دهند. و این واقعاً راهی نیست که شرکتهای رسانهای این روزها برای تولید رویدادها انتخاب کنند.»
پخش ورزشی تحت تأثیر کاهش مخاطبان در رسانههای سنتی و افزایش پخش استریم قرار گرفته است. طبق گزارش اداره آمار کار، اشتغال برای مفسران پخش و دیجیها بین سالهای ۲۰۲۱ تا ۲۰۳۱ به میزان ۱۱ درصد کاهش خواهد یافت. در ماه ژوئن، کانال ورزشی ESPN حدود ۲۰ گوینده ورزشی را برای مدیریت هزینهها اخراج کرد.
محدودیت های گوینده ورزشی هوش مصنوعی
همزمان با ادامه کاهش هزینهها در شرکتهای رسانهای، مدلهای گوینده ورزشی هوش مصنوعی در حال بهبود هستند. سیکن گفت که مدل هوش مصنوعی آنها در حال آموزش دیدن در زمینه جزئیات تفسیر است تا به واژگان کشور و ورزش مربوطه تطبیق یابد. به گفته IBM، تیم آنها از دادههای حدود ۱۳۰ میلیون سند برای آموزش مدل زبان بزرگ برای تفسیر ویمبلدون استفاده کرده است.
پاسکیه گفت که از نظر اخلاقی و برای اطمینان از دقت، یوروویژن اسپورت از قابلیتهای تبدیل متن به گفتار استفاده کرد: یک تهیهکننده انسانی متن را می نوشت که توسط مفسر هوش مصنوعی خوانده شد.
سیکن گفت که هوش مصنوعی هنوز در مسابقات زنده استفاده نشده است چرا که زمان پردازش میتواند بسته به طول ویدئو چند ثانیه یا چند دقیقه طول بکشد. او گفت: «ما هنوز قابلیت زنده بودن را پیادهسازی نکردهایم، اما این کار در برنامههای آینده قرار دارد.»
برخی افراد گفتند که تفسیر هوش مصنوعی در ویمبلدون نام برخی از بازیکنان را اشتباه تلفظ کرده است.
یکی از کاربران توییتر نوشت: «تنها چیزی که پیدا کردم، خلاصههای ۳ دقیقهای با تفسیر بیاحساس هوش مصنوعی در وبسایت ویمبلدون بود و نام واورینکا را بهصورت وار-رینکا تلفظ کرده بودند.»
کاربر دیگری نوشت: «تفسیر ویمبلدون صدای مصنوعی و رباتیک دارد، نمیتواند نیمی از نام بازیکنان را بهدرستی تلفظ کند و بهشدت حواسپرتکن است.»
یک نویسنده که تفسیر هوش مصنوعی در مسابقهای بین انس جابر و مگدالنا فْرِچ را در ویمبلدون شنیده بود، در مقالهای برای مجله The Atlantic نوشت: «نام فْرِچ (Fręch) و همچنین تونس (Tunisia) به اشتباه تلفظ شدند.»
پاسکیه گفت که هوش مصنوعی در زبان انگلیسی عملکرد بهتری از سایر زبان ها دارد. این چالشی برای توسعه مدل گوینده ورزشی هوش مصنوعی برای بازارهای غیرانگلیسیزبان به وجود میآورد.
زُهیب احمد، بنیانگذار شرکت Resemble AI، که در زمینه تولید صدا با هوش مصنوعی و دوبله برای شرکتهای سرگرمی و بازی فعالیت میکند، گفت که قابلیتهای زبانی هوش مصنوعی در حال پیشرفت است: «فکر میکنم در مدت زمان کوتاهی مسیر زیادی را طی کردهایم.»
سیکن گفت که IBM در حال بررسی لهجهها و زبانها برای افزودن به گوینده ورزشی هوش مصنوعی خود است، با توجه به بازیکنان و مخاطبان بینالمللی.
او گفت: «ورزش یک فعالیت بینالمللی فوقالعاده است، چه ویمبلدون باشد و چه مسابقات آینده اوپن آمریکا، برای بازیکنان ما از سراسر جهان که در این رویدادها شرکت میکنند.»