Команда ученых из Microsoft Research, Университета Олбани и JD AI Research опубликовала исследование, в котором описана работа нейросети, способной создавать образы на основе текстового описания. Об этом сообщает VentureBeat.
Нейросеть типа Obj-GAN (Object-driven Attentive Generative Adversarial Newtork) способна создать картинку по точному описанию, начиная с ее наброска и заканчивая проработкой деталей.
«Масштабные эксперименты показывают, что ObjGAN способна эффективно генерировать сложные сцены, преобразовывая текст в изображение», — говорится в описании проекта.
Нейросеть моделировали так, чтобы она работала подобно художнику, прорабатывающему сложные сцены: от простого к сложным деталям. Система разделяет текст на отдельные слова и сопоставляет их с объектами, проверяя, во-первых, правильность такого сопоставления, и во-вторых, имеет ли оно смысл в контексте целого описания.
Результаты пока неидеальны: нейросеть может генерировать логически несвязные образы, вроде поезда, заброшенного на травянистом холме для описания «Пассажирский поезд катится по рельсам». Но в целом они впечатляют: