Microsoft показала фреймворк для створення відео з ліпсинком за допомогою фото та аудіодоріжки. Нову розробку назвали VASA-1, але компанія поки не хоче випускати її для всіх.
У блозі техногіганта опублікували декілька десятків відео, які показують можливості VASA-1.
- Він може працювати як із реалістичними фотографіями, так і зі згенерованими. Але в релізі одразу є попередження, що всі портрети, окрім Мони Лізи, згенеровані за допомогою StyleGAN2 або DALL-E-3.
- У компанії кажуть, що їхній метод «значно перевершує попередні методи» за різними параметрами. VASA-1 дозволяє скоригувати напрямок погляду очей, відстань до голови чи емоції, з якими людина має говорити текст: нейтрально чи з нотками гніву або здивування.
- Окрім цього, скоригувати можна рухи голови або зробити однакову динаміку на декількох різних фотографіях.
- Також йдеться, що VASA-1 може генерувати відеокадри розміром 512×512 зі швидкістю 45 кадрів у секунду в режимі пакетної обробки та підтримувати до 40 кадрів у секунду в режимі потокового передання з попередньою затримкою всього 170 мс.
Чому фреймворк буде недоступним для користувачів
Розробники кажуть, що просто хотіли показати можливості VASA-1 і не планують випускати продукт чи API, адже його потенційно можуть використовувати для введення в оману та створення дипфейків. І хоча створені VASA-1 відео мають знаки, які дозволяють відстежити їхнє походження, цього недостатньо — йдеться у блозі. Тож Microsoft нічого не випускатимуть, поки не впевняться, що технологія буде використовуватися відповідально.