Щонайменше одне з відео з презентацій ШІ Gemini від Google було фейковим

Нещодавно Google оголосила про запуск моделі штучного інтелекту Gemini, яка стане основою оновленого чат-бота Bard. Уже зараз компанії звинуватили в перебільшенні можливостей продукту.

Йдеться про одне з відео, на якому нібито демонструють мультимодальні можливості Gemini, зокрема – голосові підказки для розпізнавання зображень у режимі реального часу. У Bloomberg стверджують, що відео було відредаговане й показувало не реальні можливості, зокрема для розпізнавання зображення використовувалися текстові підказки, а не голос.

На шестихвилинному відео здається, що Gemini майже миттєво розпізнає навіть нечіткі зображення (шляхом з’єднання точок), а також здатен передбачати, що саме користувач намалює далі. Водночас відео змонтоване так, ніби користувач спілкується із ШІ-асистентом голосом, а той відповідає в режимі реального часу.

В описі під відео сказано: «У демонстраційних цілях затримку відповіді було зменшено, а результати Gemini скорочені для стислості». Насправді демонстрація відео не відбулася в режимі реального часу та не використовувала голосових запитів.

За даними Bloomberg, Google визнав, що демонстрація відео не відбулася в режимі реального часу з голосовими підказками, а замість цього використовувала кадри нерухомого зображення з необробленого відеоматеріалу, а потім написала текстові підказки, на які відповідала Gemini.

«Це зовсім відрізняється від того, що, здавалося би, демонстрував Google: що людина може вести плавну голосову розмову з Gemini, коли ШІ спостерігає та реагує на навколишній світ у реальному часі», — пише Bloomberg.

Водночас Оріол Віньялс, віцепрезидент із досліджень і глибокого навчання Google у DeepMind опублікував допис, у якому пояснюється, як команда створила відео.

Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0

We gave Gemini sequences of different modalities — image and text in this case — and had it respond… pic.twitter.com/Beba5M5dHP
— Oriol Vinyals (@OriolVinyalsML) December 7, 2023

«Усі запити користувача та вихідні дані у відео є реальними та скороченими для стислості, — каже Віньялс. — Відео ілюструє, як може виглядати багаторежимний досвід користувача, створений за допомогою Gemini. Ми зробили це, щоб надихнути розробників».

Також Віньялс опублікував відео у X (раніше Twitter), де також помітно, що інтерфейс та спосіб взаємодії користувача із чат-ботом відрізняється. Зокрема, запити відбуваються через текст, а не живу мову.

Щонайменше одне з відео з презентацій ШІ Gemini від Google було фейковим

Читати більше