OpenAI покращили генерацію зображень у ChatGPT: що змінилось

Тепер за генерацію зображень у популярному ШІ-чаті OpenAI відповідатиме модель GPT-4o, раніше це робила DALL-E. Це означає, що користувачі отримуватимуть значно якісні зображення. А ще такі, які можуть когось образити, але «в межах розумного».

У своєму блозі OpenAI показали кілька прикладів, як GPT-4o створював комікси, покроково робив із фотографії кота ігрового персонажа, генерував чіткі й зрозумілі таблиці, графіки та формули. Із помітних покращень — читабельний текст, який розміщується в правильних місцях, і вражаюча фотореалістичність.

Згенероване зображення GPT‑4o. Джерело: OpenAI

«Генерація зображень у GPT‑4o слідує детальним запитам з увагою до деталей. Тоді як інші системи зазвичай справляються з ~5–8 об’єктами, GPT‑4o може обробляти до 10–20 різних об’єктів. Тісніший зв’язок між об’єктами, їхніми характеристиками та взаємозв’язками забезпечує кращий контроль», — йдеться в блозі.

Модель може використовувати контекст чату, щоб створити зображення, або проаналізувати надані референси та згенерувати в такому ж стилі чи щось подібне. Коли GPT‑4o дали схему будівлі, він зміг перетворити її на фото. До того ж усі деталі збереглися.

Скриншот із блогу OpenAI

Попри такі можливості, модель все ще не ідеальна. Проблема галюцинацій залишається актуальною, штучний інтелект може не впоратися з великою кількістю тексту з таблицями, або заплутатись у послідовності.

Генератор зображень уже доступний для користувачів Plus, Pro, Team і Free за замовчуванням у ChatGPT, а незабаром доступ отримають і підписники планів Enterprise і Edu. Він також доступний в Sora. Розробники отримають доступ протягом наступних кількох тижнів.

UPD 27 березня: Пізніше гендиректор компанії Сем Альтман написав в Х, що попит на генерацію зображень виявився більшим за очікуваний, тож запуск функції для безкоштовних користувачів відклали на невизначений строк.

Із цікавого — Альтман привітав розробників із запуском і написав, що це «новий етап у наданні творчої свободи».

«Люди створюватимуть дійсно дивовижні речі, а також такі, які можуть когось образити. Ми би хотіли, щоб інструмент не генерував образливий контент, якщо ви цього не хочете. Але в межах розумного — дозволяв це робити».

Альтман також написав, що це правильно — «надавати користувачам інтелектуальну свободу й контроль». Але також зазначив, що будуть спостерігати за розвитком подій і прислухатися до суспільства.

У блозі йдеться, що модель все ще блокуватиме контент, який порушує політику компанії. Наприклад, матеріали сексуального насильства над дітьми та фейки сексуального характеру.

Фотореалізм і читабельний текст. Зображення в ChatGPT тепер генеруватиме ШІ-модель GPT-4o

Читати більше