DALL·E — нейросеть умеющая создавать изображения по текстовому описанию

Некоммерческая компания OpenAI, которая занимается исследованиями в сфере искусственного интеллекта, представила нейросеть DALL-E — она умеет создавать изображения по текстовому описанию. На это обратило внимание издание The Next Web.

Что это такое

В июле 2020 года компания OpenAI, выпустила алгоритм GPT-3, который может может выполнять различные задачи по написанию текста на основе заданных параметров. При этом, результат максимально похож на материалы, созданные человеком.

DALL · E — это расширение GPT-3, которое анализирует англоязычные текстовые подсказки и затем отвечает не словами, а изображениями. При их создании, нейросеть учитывает 12 млрд параметров, включая цвет, высоту, расположение и названия предметов. Как результат, DALL · E способна создавать реалистичные фото, несуществующие объекты, достраивать любую прямоугольную область существующего изображения.

Запрос: «Улитка из арфы»
Изображение тут и далее: OpenAI

Запрос: «Профессиональное высококачественный эмодзи влюбленного стакана бабл-ти»

Кроме этого, DALL·E способна понимать сложные абстрактные комбинации и отображать произвольный текст на уличных знаках:

Запрос: «Капибара из вокселей сидит в поле»

Запрос: “Фасад магазина, на котором написано слово openai»

Чтобы проверить способность DALL · E к визуальному мышлению, авторы провели IQ тест Рейвена. Нейросети требовалось определить закономерности и правильно заполнить матрицу недостающими элементами. С этим заданием DALL · E справилась на отлично.

Запрос: «Матрица с недостающим элементом в правом нижнем углу»

Как пояснили в компании, DALL·E — это языковая модель-трансформер (как и GPT-3). Она принимает на вход текст и изображение, как последовательность размером в 1280 токенов (256 содержат текст, в 1024 — части изображения) и авторегрессивно их моделирует. Таким образом, генерируются новые изображения.

DALL·E — нейросеть умеющая создавать изображения по текстовому описанию

Что это такое

Читать больше