ИИ заставил Мону Лизу заговорить
Ученые создали инструмент, позволяющий вложить любые слова в уста изображенного человека.
Исследователи из Института интеллектуальных вычислений Alibaba Group показали в действии новое приложение искусственного интеллекта Emote Portrait Alive. Программа берет одну фотографию лица человека и саундтрек, в котором кто-то говорит или поет, объединяет их и получает анимированную версию снимка. Изображенный на нем человек или персонаж может петь и говорить что угодно, пишет TechXplore.
Уже создавались ИИ-инструменты, способные превращать обычные фотографии в анимированные. В новом проекте команда Alibaba пошла дальше, добавив звук. Ученые не использовали 3D-модели или ориентиры лица. Вместо этого они применили диффузионное моделирование, основанное на обучении ИИ на больших наборах данных аудио- или видеофайлов. Для создания приложения понадобилось около 250 часов таких данных.
Путем прямого преобразования аудиосигнала в видеокадры исследователи создали приложение, которое фиксирует тонкие жесты человеческого лица, особенности речи и другие характеристики, которые идентифицируют анимированное изображение лица как человеческое. Видео точно воссоздает вероятную форму рта при артикуляции слов и предложений, а также подходящую мимику.
Ученые опубликовали несколько видеороликов, демонстрирующих довольно точную работу инструмента. Разработчики уверены, что их приложение превосходит другие решения по реалистичности и выразительности. Длина готового видео определяется длиной исходной звуковой дорожки.