25 вересня 2023 року компанія OpenAI додала до свого чатбота можливість розпізнавати голос та зображення і генерувати голосові відповіді. Поки що ці опції доступні лише в платній версії сервісу. Про це йдеться у офіційному блозі компанії.

  • Щоб почати взаємодіяти із чатом голосом, потрібно зайти у налаштування мобільного додатку (Settings → New Features) і обрати таку можливість. Після цього потрібно натиснути на іконку мікрофона на домашньому екрані, і обрати «голос» чатботу із п’ятьох варіантів.
  • Ця функція працює за допомогою нової моделі перетворення тексту на голос, яка, на думку розробників, здатна генерувати голос, подібний до людського. Для того, щоб створити кожен із голосів, OpenAI працювала із професійними акторами. Також використовували систему Whisper, яка переводить слова у текст.
  • Щоб використати функцію розпізнавання зображень, потрібно натиснути кнопку фото і зробити знімок. Один чи кілька знімків можна завантажити до чату, щоб обговорити. Розробники в блозі наводять приклад, коли користувач показує чатботу фото свого велосипеда, обводить на ній кріплення сидіння, та просить допомогти адаптувати його висоту. І чатбот, аналізуючи зображення та запит, дає покрокові рекомендації, як це зробити.
  • Ці нові можливості можна використовувати в багатьох життєвих ситуаціях: наприклад, розпитати чатбота про якесь відоме місце під час туристичної подорожі або показати йому фото холодильника і спитати про рецепти, або допомогти дитині розв’язати математичну задачу.
  • Ці опції доступні поки що у підписках Plus та Enterprise, їх додаватимуть поступово протягом наступних двох тижнів. Пізніше в OpenAI також обіцяють доступ іншим групам користувачів, зокрема, розробникам.