Що вміє новий GPT-4?

14 березня OpenAI, розробник лінгвістичної AI-моделі GPT-3.5, на якій працює популярний чат-бот ChatGPT, випустила нову її версію: GPT-4. Компанія зазначає, що нове покоління моделі може обробляти як текст, а й картинки, а нейромережа стала загалом розумнішою, креативнішою та надійнішою. В цьому матеріалі редакція AIN.UA детально розповідає про нововведення, які отримала найпопулярніша AI-модель

Наскільки GPT-4 перевершує можливості GPT-3.5?

GPT-4 — це велика мультимодальна модель (приймає зображення та текст, видає текстові відповіді), яка, поки менш ефективна в багатьох сценаріях реального світу ніж людина, проте демонструє продуктивність на рівні людини на різних професійних і академічних тестах.

При цьому у звичайній розмові різниця між GPT-3.5 і GPT-4 може бути незначною. Різниця проявляється, коли складність завдання досягає достатнього порогу — GPT-4 надійніший, креативніший і здатний обробляти набагато більш детальні інструкції, ніж GPT-3.5.

Результати тестування GPT-4 проти GPT-3.5

Щоб зрозуміти різницю між цими двома моделями, OpenAI провели тестування за допомогою різноманітних контрольних тестів, зокрема симуляції іспитів, які спочатку були розроблені для людей. Для тестів використовувались найновішими загальнодоступні екзамени (у випадку олімпіад і питань з безкоштовними відповідями AP) або видання практичних іспитів 2022–2023 років. 

Результати тестування GPT-4 проти GPT-3.5 різними мовами

Багато наявних тестів машинного навчання написані англійською мовою. Щоб отримати початкове уявлення про можливості роботи GPT-4 іншими мовами, OpenAI переклали тест MMLU — набір із 14 000 завдань із множинним вибором, що охоплює 57 тем — різними мовами за допомогою Azure Translate. У 24 із 26 протестованих мов GPT-4 перевершує англійську продуктивність GPT-3.5 та інших LLM (Chinchilla, PaLM), зокрема для мов із низьким ресурсом, таких як латиська, валлійська та суахілі:

Розуміння зображень, керованість та обмеження

GPT-4 розпізнає зображення і розуміє, що в ньому дивного

Розуміння зображень — головна, з точки зору пересічного користувача, відмінність GPT-4. Зокрема, GPT-4 генерує текстові відповіді (природна мова, код тощо) на основі вхідних даних, що складаються з вкраплення тексту та зображень. 

Крім того, як показують тести, нейромережа здатна розуміти складні фотографії, графіки, та двоякі зображення (наприклад карту світу, викладену курячими нагетсами). Крім того, GPT-4 може розпізнавати кабелі, креслення та навіть меми.

Приклад поведінки GPT-4 з завданням: «Ви викладач, який завжди відповідає в стилі Сократа. 
Ви *ніколи* не даєте учневі відповіді, але завжди намагаєтеся поставити правильне запитання»

Замість класичної індивідуальності ChatGPT із фіксованою багатослівністю, тоном і стилем розробники (а незабаром і користувачі ChatGPT) тепер можуть визначати стиль і завдання свого AI, описуючи ці вказівки в «системному» повідомленні. Системні повідомлення дозволяють користувачам API суттєво налаштувати роботу своїх користувачів.

Графік «точності» відповідей різних мовних моделей

Попри свої можливості, GPT-4 має ті ж обмеження, що й попередні моделі GPT. Найважливіше те, що він все ще не є повністю надійним (він «галюцинує» факти та допускає помилки в міркуванні). Необхідно бути дуже обережним, використовуючи вихідні дані мовної моделі у відповідальних завданнях.

Залишити коментар

Коментарі | 0

Пошук