Некоммерческая компания OpenAI создала новую версию нейросети DALL-E, генерирующую изображение по текстовому описанию. DALL-E 2 способен добавлять на картинки новые объекты, а также редактировать изображения. Об этом рассказало издание The Verge.
DALL-E 2 генерирует в 4 раза более качественные изображения за предыдущую версию нейросети. Одна из новых функций DALL-E 2 – рисование. Пользователи могут начать с существующего изображения, выбрать область, задать параметры и изменить ее. DALL-E 2 может добавлять (или удалять) объекты с учетом таких деталей как направление теней в условно изображенной комнате.
С другой функцией пользователи могут создать ряд похожих на исходную картинку изображений. При этом они будут выполнены в разных стилях. Кроме того, у DALL-E 2 появилась возможность смешивать два изображения и на их основе создавать новую визуальную композицию.
Как и в случае с первой версией нейросети, DALL-E 2 не публичный. Чтобы протестировать разработку, исследователям необходимо зарегистрироваться и стать в список ожидания OpenAI. В будущем OpenAI планирует сделать нейросеть доступной для использования в сторонних программах.
Несмотря на то, что полная модель DALL-E никогда не публиковалась, за последний год разработчики отточили свои инструменты, имитирующие некоторые из ее функций. Одним из самых популярных является мобильное приложение Wombo’s Dream, генерирующее изображение всего, что описывают пользователи.
Что такое DALL-E
Компания OpenAI представила нейросеть DALL-E в 2021 году. Она работает по принципу ранее созданного алгоритма GPT-3, который в частности способен генерировать текст по заданным параметрам. При этом, результат максимально приближен к материалам, создаваемым человеком. Первая версия DALL-E, подобно GPT-3, анализирует англоязычные текстовые подсказки, однако отвечает на запросы изображениями, а не словами.
В основу второй версии нейросети DALL-E 2 ученые заложили алгоритм компьютерного зрения CLIP. Как пояснили в OpenAI, такой подход позволил более качественно воспроизводить запросы и генерировать реалистичные детализированные изображения.