Нещодавно Google оголосила про запуск моделі штучного інтелекту Gemini, яка стане основою оновленого чат-бота Bard. Уже зараз компанії звинуватили в перебільшенні можливостей продукту.
Йдеться про одне з відео, на якому нібито демонструють мультимодальні можливості Gemini, зокрема – голосові підказки для розпізнавання зображень у режимі реального часу. У Bloomberg стверджують, що відео було відредаговане й показувало не реальні можливості, зокрема для розпізнавання зображення використовувалися текстові підказки, а не голос.
На шестихвилинному відео здається, що Gemini майже миттєво розпізнає навіть нечіткі зображення (шляхом з’єднання точок), а також здатен передбачати, що саме користувач намалює далі. Водночас відео змонтоване так, ніби користувач спілкується із ШІ-асистентом голосом, а той відповідає в режимі реального часу.
В описі під відео сказано: «У демонстраційних цілях затримку відповіді було зменшено, а результати Gemini скорочені для стислості». Насправді демонстрація відео не відбулася в режимі реального часу та не використовувала голосових запитів.
За даними Bloomberg, Google визнав, що демонстрація відео не відбулася в режимі реального часу з голосовими підказками, а замість цього використовувала кадри нерухомого зображення з необробленого відеоматеріалу, а потім написала текстові підказки, на які відповідала Gemini.
«Це зовсім відрізняється від того, що, здавалося би, демонстрував Google: що людина може вести плавну голосову розмову з Gemini, коли ШІ спостерігає та реагує на навколишній світ у реальному часі», — пише Bloomberg.
Водночас Оріол Віньялс, віцепрезидент із досліджень і глибокого навчання Google у DeepMind опублікував допис, у якому пояснюється, як команда створила відео.
«Усі запити користувача та вихідні дані у відео є реальними та скороченими для стислості, — каже Віньялс. — Відео ілюструє, як може виглядати багаторежимний досвід користувача, створений за допомогою Gemini. Ми зробили це, щоб надихнути розробників».
Також Віньялс опублікував відео у X (раніше Twitter), де також помітно, що інтерфейс та спосіб взаємодії користувача із чат-ботом відрізняється. Зокрема, запити відбуваються через текст, а не живу мову.