Некоммерческая компания OpenAI, которая занимается исследованиями в сфере искусственного интеллекта, представила нейросеть DALL-E — она умеет создавать изображения по текстовому описанию. На это обратило внимание издание The Next Web.
Что это такое
В июле 2020 года компания OpenAI, выпустила алгоритм GPT-3, который может может выполнять различные задачи по написанию текста на основе заданных параметров. При этом, результат максимально похож на материалы, созданные человеком.
DALL · E — это расширение GPT-3, которое анализирует англоязычные текстовые подсказки и затем отвечает не словами, а изображениями. При их создании, нейросеть учитывает 12 млрд параметров, включая цвет, высоту, расположение и названия предметов. Как результат, DALL · E способна создавать реалистичные фото, несуществующие объекты, достраивать любую прямоугольную область существующего изображения.

Изображение тут и далее: OpenAI


Кроме этого, DALL·E способна понимать сложные абстрактные комбинации и отображать произвольный текст на уличных знаках:


Чтобы проверить способность DALL · E к визуальному мышлению, авторы провели IQ тест Рейвена. Нейросети требовалось определить закономерности и правильно заполнить матрицу недостающими элементами. С этим заданием DALL · E справилась на отлично.

Как пояснили в компании, DALL·E — это языковая модель-трансформер (как и GPT-3). Она принимает на вход текст и изображение, как последовательность размером в 1280 токенов (256 содержат текст, в 1024 — части изображения) и авторегрессивно их моделирует. Таким образом, генерируются новые изображения.