Велика мовна модель (LLM) Claude 3 Opus від Anthropic у вівторок, 26 березня, вперше перевершила GPT-4 від OpenAI (яка використовується у ChatGPT) на Chatbot Arena – популярній рейтинговій таблиці, яку дослідники штучного інтелекту використовують для оцінки відносних можливостей мовних моделей. Про це пише Ars Technica.

З моменту включення GPT-4 до Chatbot Arena 10 травня 2023 року (рейтинг був запущений 3 травня того ж року), різні версії цієї моделі залишалися лідерами рейтингу. Їхнє падіння свідчить про динамічний розвиток та зростання конкуренції у цій сфері.

Окрім Claude 3 Opus, увагу дослідників привертає й інша модель Anthropic – Haiku, яка також демонструє неймовірні результати на платформі.

Що таке Chatbot Arena?

Chatbot Arena – це проєкт дослідницької організації Large Model Systems Organization (LMSYS ORG). LMSYS ORG займається відкритими моделями штучного інтелекту і працює як спільна ініціатива студентів та викладачів каліфорнійського університету в Берклі, каліфорнійського університету в Сан-Дієго та університету Карнегі-Меллона.

Chatbot Arena демонструє користувачам два вікна: одне з відповіддю від першої ШІ-моделі, інше – від другої. Користувач має самостійно оцінити, яка відповідь є кращою. За допомогою цих суб’єктивних оцінок від тисяч користувачів Chatbot Arena визначає, які моделі штучного інтелекту загалом працюють краще, і оновлює рейтинг з часом.

Дослідники часто зазнають труднощів, оцінюючи ефективність чат-ботів зі штучним інтелектом, адже їхні відповіді бувають дуже різними, їх складно виміряти кількісними показниками. Саме тому Chatbot Arena є важливим інструментом.

OpenAI, ймовірно, буде реагувати на цю подію, адже GPT-4 не оновлювалася понад рік. Очікується, що протягом 2024 року компанія представить нову модель, яка знову поверне лідерство у галузі.