Якщо ви вже користувалися генеративними нейромережами, такими як DALL-E або MidJourney, то знаєте, що вони можуть створювати неймовірні зображення, але при цьому часто спотворюють конкретні об’єкти, які ви хочете помістити в кадр (наприклад конкретне число або річ).

Як повідомляє HackerNoon, нова модель штучного інтелекту NVIDІA Perfusion покращує генерацію зображень, додаючи в неї контрольоване збереження ідентичності об’єкта, який ви хочете бачити в кінцевому результаті.

  • Perfusion є значним покращенням у порівнянні з наявними методами генерації зображень. Вона долає обмеження у створенні зображень, залишаючи їх справді відповідними оригінальній концепції, яку надав користувач. Ця модель може точно створювати ці «концепції» в різноманітних нових сценаріях.
  • Perfusion, як і DALL-E або MidJourney базується на методі стабільної дифузії, проте додає в нього механізмами для одночасного блокування та створення кількох «концепцій» у нових зображеннях. Це призводить до неперевершених кількісних і якісних показників, відкриваючи можливість для конкретного використання таких зображень, а не лише загальних ілюстрацій.
  • Хоча Perfusion не ідеальний, він є значним кроком вперед для моделей, що перетворюють текст в зображення.  Перфузія набагато краща, ніж усі попередні підходи, щодо зіставлення згенерованих результатів із вихідним зображенням. Таким чином, це в основному стабільна дифузія з ще більшим контролем над результатом.