OpenAI представила нову мовну модель GPT-4o, оновлення GPT-4, що лежить в основі її головного продукту ChatGPT. У своєму блозі компанія повідомила, що можливості GPT-4o будуть впроваджуватися поетапно, але вже сьогодні нова флагманська модель може працювати з аудіо, відео та текстом у реальному часі.
Можливості моделі:
- Літера «о» в назві означає omni (всебічний), що вказує на мультимодальність GPT-4o. Це означає, що вона може генерувати контент або розуміти команди голосом, текстом або зображеннями.
- GPT-4o може реагувати на аудіозапит лише за 232 мілісекунди (в середньому 320 мілісекунд), що відповідає часу реакції людини під час розмови.
- Модель спілкується голосом, подібно до людини, змінюючи інтонації.
- GPT-4o запам’ятовує бесіди з користувачем.
- Модель відповідає продуктивності GPT-4 Turbo для англійського тексту та коду.
- Значно покращено роботу з текстом іншими мовами (загалом підтримується 50, зокрема й українська).
- Модель може генерувати 3D-об’єкти.
- GPT-4o значно краще сприймає та аналізує зображення, зокрема графіки, діаграми та скриншоти, порівняно з уже наявними моделями.
- Вона буде безкоштовною для всіх користувачів, а платні користувачі й надалі матимуть уп’ятеро більші обсяги обробки.
- Розробники, які захочуть поекспериментувати з GPT-4o, матимуть доступ до API, який вдвічі швидший і вдвічі дешевший.
Повний список можливостей моделі можна знайти у блозі OpenAI. Під час демонстрації GPT-4o співробітники OpenAI спілкувалися з нею голосом, продемонструвавши її вміння розуміти тон і напрямок бесіди, а також те, як природно вона розмовляє і навіть жартує.
До запуску GPT-4o з’являлися повідомлення про те, що OpenAI планує анонсувати абсолютно нову та покращену модель GPT-5 або пошукову систему на базі ШІ, яка стане конкурентом Google і Perplexity.
Звісно, OpenAI спеціально пов’язала цей запуск до початку щорічної конференції Google для розробників I/O, де, як очікується, команда Gemini представить різні продукти штучного інтелекту.