Некомерційна компанія OpenAI, яка займається дослідженнями у сфері штучного інтелекту, представила нейромережу DALL-E – вона вміє створювати зображення за текстовим описом. На це звернуло увагу видання The Next Web.

Що це таке

У липні 2020 року компанія OpenAI, випустила алгоритм GPT-3, який може може може виконувати різні завдання з написання тексту на основі заданих параметрів. При цьому, результат максимально схожий на матеріали, створені людиною.

DALL – E – це розширення GPT-3, яке аналізує англомовні текстові підказки і потім відповідає не словами, а зображеннями. При їх створенні, нейромережа враховує 12 млрд параметрів, включно з кольором, висотою, розташуванням і назвами предметів. Як результат, DALL – E здатна створювати реалістичні фото, неіснуючі об’єкти, добудовувати будь-яку прямокутну область наявного зображення.

Запит: «Равлик із арфи»
Зображення тут і далі: OpenAI
Запит: «Професійне високоякісне емодзі закоханої склянки бабл-ті»
Нейромережа доповнила бюст Гомера

Крім цього, DALL-E здатна розуміти складні абстрактні комбінації і відображати довільний текст на вуличних знаках:

Запит: «Капібара з вокселів сидить у полі»
Запит: «Фасад магазину, на якому написано слово openai»

Щоб перевірити здатність DALL – E до візуального мислення, автори провели IQ тест Рейвена. Нейромережі потрібно було визначити закономірності та правильно заповнити матрицю відсутніми елементами. Із цим завданням DALL – E впоралася на відмінно.

Запит: «Матриця з відсутнім елементом у правому нижньому кутку»

Як пояснили в компанії, DALL-E – це мовна модель-трансформер (як і GPT-3). Вона приймає на вхід текст і зображення, як послідовність розміром у 1280 токенів (256 містять текст, 1024 – частини зображення) і авторегресивно їх моделює. Таким чином, генеруються нові зображення.