Команда Google DeepMind совместно с Оксфордским университетом представили ИИ-систему, которая почти на 35% обошла результат профессионального считывателя по губам. Обучение системы проводилось на телепрограммах каналов Newsnight, BBC Breakfast and Question Time, выходивших в эфир с января 2010 по декабрь 2015 года. Массив данных включал в себя 5000 часов и 118 000 предложений.

По результатам тестирования, которое прошло в марте-сентябре 2016 года, система продемонстрировала впечатляющий результат.

ai1

Необработанный видеоролик из базы данных

Тот же ролик с субтитрами подобранными системой

Тот же ролик с субтитрами, подобранными системой

Для подтверждения эффективности разработки ее создатели провели сравнительный тест, пригласив в качестве оппонента специалиста по чтению по губам. Для эксперимента ИИ и профессионал получили случайный набор в 200 видео из массива, использовавшегося при тестировании. Человек сумел без ошибок распознать 12,4% слов, система – 46,8%.

Основной проблемой, с которой столкнулись исследователи при обучении системы, стало то, что аудио и видео на некоторых используемых клипах отставали друг от друга почти на секунду, что мешало ИИ правильно выстроить ассоциативные связи. Но благодаря тому что в большинстве выбранных клипов не было проблем с синхронизацией, система самостоятельно определила задержку в проблемных роликах и успешно справилась с задачей.

За две недели до этого Оксфордский университет представил другую обучающуюся систему – LipNet, которая также превзошла человека в распознавании речи по губам. Однако она использовала словарь из всего 51 уникального слова, в то время как разработка DeepMind успешно справилась с набором из 17 500 слов.

Ранее команда DeepMind объявила, что будет использовать StarCraft II для обучения ИИ.