ШІ вчиться на контенті, зробленому ШІ: це може призвести до колапсу

21 червня, 2023, 18:02

VentureBeat опублікувала статтю про небезпеку погіршення роботи моделей ШІ, які вчаться на контенті, згенерованому іншими ШІ-моделями. Автори свіжого дослідження порівнюють засилля контенту, згенерованого ШІ, із пластиком, що засмічує океан. Наводимо основні тези статті.

Дані, які використовують для навчання великих лінгвістичних моделей (LLM) та інших ШІ-моделей, таких як ChatGPT, Stable Diffusion та Midjourney, переважно беруть із «людських» джерел: книжок, статей, фото. Тобто, контента, створеного без допомоги ШІ.
Чим більше людей використовують ШІ, щоб виробляти і продукувати контент, постає очевидне запитання: що станеться, коли ШІ-контент пануватиме в інтернеті та ШІ-моделі почнуть вчитися на ньому, замість переважно «людського”?
Група дослідників із Британії та Канади перейнялися саме цією проблемою і нещодавно опублікували дослідження на arXiv. Їхні висновки — не такі оптимістичні для галузі генеративного ШІ: виявилось, що використання згенерованого ШІ контенту призводить до невиправних дефектів у моделях.

«Якщо ви тренуватимете музичну модель на Моцарті, можете очікувати результати, такі як у Моцарта, але без «іскри», назвімо їх «Сальєрі». А якщо «Сальєрі» продовжить тренувати наступні покоління, яке звучання ми матимемо уже на п’ятому-шостому поколінні?» — пишуть автори дослідження.

Дивлячись на розподіл імовірностей для моделей, що працюють із текстом та зображенням, дослідники дійшли висновку, що коли модель вчиться на даних, які продуковані іншими моделями, це призводить до її колапсу, процесу погіршення якості її роботи. З часом модель «забуває» справжні розподіли даних, і цей процес є неуникненним.
З часом помилки накопичуються і модель починає ще гірше інтерпретувати реальність: моделі швидко «забувають» більшість оригінальних даних, за якими вони навчались. Тобто, чим більше ШІ-модель працює із згенерованими ШІ даними, тим гірше вона працюватиме з часом.
Один із авторів дослідження, Рос Андерсон, професор з кібербезпеки Університету Кембріджа та Університету Едінбурга, написав, що цей процес можна порівняти із тим, як людство засмітило океан пластиком, а атмосферу вуглекислотою: так само людство зараз збирається засмітити інтернет беззмістовним контентом. І це зробить завдання із тренування нових моделей важчим.

Раніше про небезпеку такого ж самого розмивання якості, але у тому, що стосується текстового контенту, попереджав відомий американський письменник Тед Чан:

ChatGPT — це розмитий jpeg-знімок всього інтернету: критична стаття Теда Чана

ШІ вчиться на контенті, зробленому ШІ: це може призвести до колапсу

Коментарі | 0