Как в профессиональном дубляже: Яндекс Браузер научился переводить видео 12 голосами сразу
Осенью 2021 года в Яндекс Браузере появилась инновационная технология закадрового перевода видео — нейросети научились накладывать переозвученную аудиодорожку поверх оригинальной. Со временем эта технология неоднократно развивалась (сначала появилась поддержка новых языков вдобавок к английскому, затем интерактивные субтитры, а недавно заработала опция перевода трансляций в режиме реального времени). Теперь же закадровый перевод в Яндекс Браузере вышел на новый уровень: вместо двух голосов озвучки он может использовать до двенадцати.
Все доступные голоса делятся поровну — шесть мужских и шесть женский. По убеждениям разработчиков, нововведение будет очень полезным, поскольку примерно в половине зарубежных YouTube-роликов участвуют три спикера или больше. Когда озвучивающих голосов меньше, это усложняет восприятие контента.
Для определения речи разных людей нейросеть Яндекса сначала переводит всю аудиодорожку в текст, восстанавливая пунктуацию и определяя границы предложений, а затем анализирует спектрограмму голоса, чтобы отметить на аудиодорожке фрагменты от разных спикеров.