25 сентября 2023 года компания OpenAI добавила к своему чатботу возможность распознавать голос и изображения и генерировать голосовые ответы. Пока эти опции доступны только в платной версии сервиса. Об этом говорится в официальном блоге компании.
- Чтобы начать взаимодействовать с чатом голосом, нужно зайти в настройки мобильного приложения (Settings → New Features) и выбрать такую возможность. После этого нужно нажать на иконку микрофона на домашнем экране, и выбрать «голос» чатбота из пяти вариантов.
- Эта функция работает с помощью новой модели преобразования текста в голос, которая, по мнению разработчиков, способна генерировать голос, подобный человеческому. Для того, чтобы создать каждый из голосов, OpenAI работала с профессиональными актерами. Также использовали систему Whisper, которая переводит слова в текст.
- Чтобы использовать функцию распознавания изображений, нужно нажать кнопку фото и сделать снимок. Один или несколько снимков можно загрузить в чат, чтобы обсудить. Разработчики в блоге приводят пример, когда пользователь показывает чатботу фото своего велосипеда, обводит на ней крепления сиденья, и просит помочь адаптировать его высоту. И чатбот, анализируя изображение и запрос, дает пошаговые рекомендации, как это сделать.
- Эти новые возможности можно использовать во многих жизненных ситуациях: например, расспросить чатбота о каком-то известном месте во время туристического путешествия или показать ему фото холодильника и спросить о рецептах, или помочь ребенку решить математическую задачу.
- Эти опции доступны пока в подписках Plus и Enterprise, их будут добавлять постепенно в течение следующих двух недель. Позже в OpenAI также обещают доступ другим группам пользователей, в частности, разработчикам.