Некомерційна компанія OpenAI, яка займається дослідженнями у сфері штучного інтелекту, представила нейромережу DALL-E – вона вміє створювати зображення за текстовим описом. На це звернуло увагу видання The Next Web.
Що це таке
У липні 2020 року компанія OpenAI, випустила алгоритм GPT-3, який може може може виконувати різні завдання з написання тексту на основі заданих параметрів. При цьому, результат максимально схожий на матеріали, створені людиною.
DALL – E – це розширення GPT-3, яке аналізує англомовні текстові підказки і потім відповідає не словами, а зображеннями. При їх створенні, нейромережа враховує 12 млрд параметрів, включно з кольором, висотою, розташуванням і назвами предметів. Як результат, DALL – E здатна створювати реалістичні фото, неіснуючі об’єкти, добудовувати будь-яку прямокутну область наявного зображення.
Крім цього, DALL-E здатна розуміти складні абстрактні комбінації і відображати довільний текст на вуличних знаках:
Щоб перевірити здатність DALL – E до візуального мислення, автори провели IQ тест Рейвена. Нейромережі потрібно було визначити закономірності та правильно заповнити матрицю відсутніми елементами. Із цим завданням DALL – E впоралася на відмінно.
Як пояснили в компанії, DALL-E – це мовна модель-трансформер (як і GPT-3). Вона приймає на вхід текст і зображення, як послідовність розміром у 1280 токенів (256 містять текст, 1024 – частини зображення) і авторегресивно їх моделює. Таким чином, генеруються нові зображення.