Подставить под аудио реалистическое видео спикера – задача не из легких. Результат как правило удручает. Но исследователи Вашингтонского университета сильно продвинулись в решении этой проблемы. Они научили нейросеть моделировать изображение спикера на основании аудиозаписи и сделали это на примере Барака Обамы. В результате получился рендер экс-президента США, на котором искусственно смоделированного Обаму невозможно отличить от настоящего.

Как сообщает Engadget, чтобы натренировать ИИ, ученые использовали 14 часов записей с речами и комментариями Обамы. Сначала нейросеть изучила мимику Обамы и определила позицию губ для каждого звука. Потом эти движения наклеили на другое видео, и компьютер научился делать видео более реалистичным, исправляя наклон головы или положение челюсти в процессе речи. Программисты показали прогресс нейросети через три минуты, час, семь и 14 часов обучения. С течением времени картинка становилась все более реалистичной.

Впрочем, нейросети еще есть над чем поработать: иногда у Обамы появляется второй подбородок, а когда он произносит межзубный “th”, рендер не передает естественного движения языка. Также у искусственного президент кое-где наблюдаются проблемы с эмоциями – они не всегда соответствуют по смыслу тому, что он говорит.

Напомним, группа Facebook Artificial Intelligence Research (FAIR) опубликовала исследование, посвященное обучению ботов переговорам. В нем описан процесс обучения, способный научить компьютер не только вести переговоры с людьми (пока на элементарном уровне), но и врать.