Microsoft представила VASA-1: ШІ, який перетворює фото на відео з ліпсинком. Його не випускатимуть для користувачів

Microsoft показала фреймворк для створення відео з ліпсинком за допомогою фото та аудіодоріжки. Нову розробку назвали VASA-1, але компанія поки не хоче випускати її для всіх.

У блозі техногіганта опублікували декілька десятків відео, які показують можливості VASA-1.

Він може працювати як із реалістичними фотографіями, так і зі згенерованими. Але в релізі одразу є попередження, що всі портрети, окрім Мони Лізи, згенеровані за допомогою StyleGAN2 або DALL-E-3.
У компанії кажуть, що їхній метод «значно перевершує попередні методи» за різними параметрами. VASA-1 дозволяє скоригувати напрямок погляду очей, відстань до голови чи емоції, з якими людина має говорити текст: нейтрально чи з нотками гніву або здивування.
Окрім цього, скоригувати можна рухи голови або зробити однакову динаміку на декількох різних фотографіях.
Також йдеться, що VASA-1 може генерувати відеокадри розміром 512×512 зі швидкістю 45 кадрів у секунду в режимі пакетної обробки та підтримувати до 40 кадрів у секунду в режимі потокового передання з попередньою затримкою всього 170 мс.

Чому фреймворк буде недоступним для користувачів

Розробники кажуть, що просто хотіли показати можливості VASA-1 і не планують випускати продукт чи API, адже його потенційно можуть використовувати для введення в оману та створення дипфейків. І хоча створені VASA-1 відео мають знаки, які дозволяють відстежити їхнє походження, цього недостатньо — йдеться у блозі. Тож Microsoft нічого не випускатимуть, поки не впевняться, що технологія буде використовуватися відповідально.

Дипфейк — веселий тренд чи правопорушення?

Microsoft представила VASA-1: ШІ, який перетворює фото на відео з ліпсинком. Його не випускатимуть для користувачів

Чому фреймворк буде недоступним для користувачів

Читати більше