Команда ученых из Microsoft Research, Университета Олбани и JD AI Research опубликовала исследование, в котором описана работа нейросети, способной создавать образы на основе текстового описания. Об этом сообщает VentureBeat.

Нейросеть типа Obj-GAN (Object-driven Attentive Generative Adversarial Newtork) способна создать картинку по точному описанию, начиная с ее наброска и заканчивая проработкой деталей.

«Масштабные эксперименты показывают, что ObjGAN способна эффективно генерировать сложные сцены, преобразовывая текст в изображение», — говорится в описании проекта.

Нейросеть моделировали так, чтобы она работала подобно художнику, прорабатывающему сложные сцены: от простого к сложным деталям. Система разделяет текст на отдельные слова и сопоставляет их с объектами, проверяя, во-первых, правильность такого сопоставления, и во-вторых, имеет ли оно смысл в контексте целого описания.

Результаты пока неидеальны: нейросеть может генерировать логически несвязные образы, вроде поезда, заброшенного на травянистом холме для описания «Пассажирский поезд катится по рельсам». Но в целом они впечатляют: