DeepMind, передова дослідницька лабораторія Google, представила наступне покоління моделі штучного інтелекту для генерації відео Veo 2. Вона може створювати двохвилинні ролики з роздільною здатністю до 4k, йдеться у блозі.

Проте в експериментальному інструменті для створення відео VideoFX від Google, де модель зараз доступна ексклюзивно, відео обмежується розміром 720p і тривалістю вісім секунд.

Головний конкурент Sora від OpenAI, яку на тому тижні зробили доступною передплатникам у рамках передріздвяних заходів компанії, може створювати кліпи до 1080p кліпи тривалістю 20 секунд

Більше про Veo 2

Veo 2 за допомогою текстових підказок генерує доволі реалістичні відео. Дослідники показали, що модель непогано справляється і з генерацією мультяшних анімацій. Пишуть, що в цій моделі зробили такі покращення:

  • Підвищили реалістичність і точність, особливо у динамічних сценах;
  • Розширили можливості руху — тобто модель правдоподібніше генерує рухи, завдяки «розумінню фізики та здатності слідувати детальним інструкціям».
  • Покращили керування умовною камерою.

Журналісти TechCrunch, які отримали згенеровані відеоприклади до релізу, відзначили їхню якість. Вони пишуть, що Veo 2 добре розуміє заломлення світла та складні рідини, як кленовий сироп.

Але попри меншу схильність до галюцинацій (як додаткові пальці), модель все ще не може повністю подолати ефект «зловісної долини». Це коли щось має майже реальний вигляд, але саме через це «майже» здається дивним і лякаючим.

«Хоча Veo 2 демонструє неймовірний прогрес, створення реалістичних, динамічних або складних відео, а також підтримка повної узгодженості в складних сценах чи за наявності складного руху, все ще залишається викликом. Ми продовжимо розробляти та вдосконалювати продуктивність у цих напрямках», — пишуть розробники.

Також TechCrunch пише, що Veo 2 навчався на великій кількості відео. DeepMind не говорить, де саме вони їх взяли, але YouTube є одним з можливих джерел Google володіє YouTube, і DeepMind раніше повідомляла TechCrunch, що моделі Google, такі як Veo, «можуть» навчатися на деякому контенті платформи.