Если вы уже пользовались генеративными нейросетями, такими как DALLE или MidJourney, то знаете, что они могут создавать невероятные изображения, но при этом часто искажают конкретные объекты, которые вы хотите поместить в кадр (например конкретное число или вещь).

Как сообщает HackerNoon, новая модель искусственного интеллекта NVIDIA Perfusion улучшает генерацию изображений, добавляя в нее контролируемое сохранение идентичности объекта, который вы хотите видеть в конечном результате.

  • Perfusion является значительным улучшением по сравнению с существующими методами генерации изображений. Она преодолевает ограничения в создании изображений, оставляя их действительно соответствующими оригинальной концепции, которую предоставил пользователь. Эта модель может точно создавать эти «концепции» в различных новых сценариях.
  • Perfusion, как и DALLE или MidJourney базируется на методе стабильной диффузии, однако добавляет в него механизмы для одновременной блокировки и создания нескольких «концепций» в новых изображениях. Это приводит к непревзойденным количественным и качественным показателям, открывая возможность для конкретного использования таких изображений, а не только общих иллюстраций.
  • Хотя Perfusion не идеален, он является значительным шагом вперед для моделей, преобразующих текст в изображения. Перфузия намного лучше, чем все предыдущие подходы, в отношении сопоставления сгенерированных результатов с исходным изображением. Таким образом, это в основном стабильная диффузия с еще большим контролем над результатом.