Дослідники з Arthur AI протестували найкращі моделі штучного інтелекту від Meta, OpenAI, Cohere та Anthropic і виявили, що деякі моделі вигадують факти або «галюцинують» значно частіше, ніж інші.
Як повідомляє CNBC, дослідники виявили, що AI Cohere галюцинує найбільше, а Llama 2 Meta галюцинує більше, ніж GPT-4 і Claude 2. Загалом лідером виявився GPT-4, який найменше вигадує факти.
- Галюцинації штучного інтелекту виникають, коли великі мовні моделі, або LLM, повністю фабрикують інформацію, поводячись так, ніби вони висловлюють факти. Чудовим прикладом є скандал, коли адвокат через галюцинації ChatGPT посилався на «фальшиві» справи у федеральному суді Нью-Йорка (і врешті решт отримав за це покарання).
- В експерименті дослідники Arthur AI протестували моделі штучного інтелекту в таких категоріях, як комбінаторна математика, президенти США та марокканські політичні лідери, ставлячи запитання, розроблені таким чином, щоб вимагати від нейромереж кількох кроків міркування щодо інформації.
- Загалом GPT-4 від OpenAI показав найкращі результати з усіх протестованих моделей, і дослідники виявили, що він викликає галюцинації менше, ніж його попередня версія, GPT-3.5 — наприклад, на математичні запитання він галюцинує від 33% до 50% менше. в залежності від категорії.
- У математичній категорії GPT-4 посів перше місце, за ним з невеликим відривом слідував Claude 2, але в президентах США Claude 2 посів перше місце за точністю, потіснивши GPT-4 на друге. Коли його запитали про марокканську політику, GPT-4 знову став першим, а Claude 2 від Anthropic та Llama 2 майже повністю провалили завдання.
- У другому експерименті дослідники перевірили, наскільки моделі штучного інтелекту захищатимуть свої відповіді застережливими фразами типу «Як модель штучного інтелекту я не можу висловлювати думку…»).
- Що стосується хеджування, GPT-4 мав відносне зростання на 50% порівняно з GPT-3.5, що «кількісно підтверджує неофіційні дані користувачів про те, що використання GPT-4 викликає більше розчарувань».
- З іншого боку, згідно зі звітом, модель штучного інтелекту Cohere взагалі не хеджувала в жодній зі своїх відповідей. Дослідження показало, що Claude 2 був найнадійнішим з точки зору «самосвідомості», тобто точно оцінював, що він робить, а чого не знає, і відповідав лише на запитання, щодо яких мав навчальні дані.