Gemini 2.5 Pro від Google перевершила OpenAI та Anthropic у тестах на кодування

Компанія Google оголосила про вихід своєї найрозумнішої на сьогодні моделі штучного інтелекту — Gemini 2.5.

Модель є «мислячою», тобто робить паузу перш ніж відповісти на запитання. Це дозволяє їй аналізувати інформацію, враховувати контекст, робити логічні висновки та ухвалювати обґрунтовані рішення.

Google приділила особливу увагу покращенню можливостей моделі у сфері кодування. Порівняно з Gemini 2.0, нова версія значно перевершує попередню у створенні вебпрограм, редагуванні коду та автоматизації програмних агентів.

Нижче компанія навела приклад того, як 2.5 Pro може використовувати свої можливості міркування для створення відеогри на основі однієї підказки.

Згідно з результатами оцінювання Aider Polyglot, що вимірює здатність до редагування коду, Gemini 2.5 Pro досягла показника 68,6 %, перевершивши провідні моделі ШІ від OpenAI, Anthropic та китайської лабораторії DeepSeek.

Однак у тесті SWE-bench Verified, який оцінює здібності до розробки програмного забезпечення, Gemini 2.5 Pro показала результат 63,8 %, перевершивши o3-mini від OpenAI та R1 від DeepSeek, але поступившись Claude 3.7 Sonnet від Anthropic, який досяг 70,3 %.

Ілюстрація: Google

У багатомодальному тесті Humanity’s Last Exam, що містить тисячі запитань з математики, гуманітарних і природничих наук, модель від Google показала результат 18,8 %, обігнавши більшість конкурентів.

Ілюстрація: Google

Gemini 2.5 Pro доступна для розробників і бізнесу в Google AI Studio та в застосунку для користувачів Gemini Advanced, а також з'явиться у Vertex AI найближчими тижнями.

Google поки що не розкрила вартість API-доступу до Gemini 2.5 Pro, але обіцяє поділитися деталями найближчими тижнями.

Компанія закликає тестувати модель і надавати зворотний зв’язок для подальшого вдосконалення її можливостей.

Нагадаємо, раніше Google розширила доступ до функції Deep Research у чатботі Gemini для всіх користувачів. Відтепер її можна використовувати безкоштовно понад 45 мовами, зокрема й українською, без підписки на Gemini Advanced.