Відомий американський письменник-фантаст Тед Чан у своїй статті на The New Yorker розмірковує над тим, як працює ChatGPT, та які вади є в цієї технології. Це — доволі критичний аналіз використання чатботу для роботи і зокрема — для написання текстів.

Зображення Depositphotos

2013 року робітники німецької будівельної компанії помітили, що їхній ксерокс поводиться дивно: коли вони робили копію плану будинку, вона різнилася з оригіналом у дрібних, але значимих деталях. В оригіналі до кожної кімнати був квадратний підпис з її площею: 14,13, 21,11 та 17,42 кв. м. Але на копії усі три кімнати були позначені площею 14,13 кв м. Компанія сконтактувала із вченим із computer science Девідом Крізелем, щоб розібрати цей незрозумілий результат. Адже сучасні ксерокси сканують документи в цифровій формі і потім друкують файл-зображення, який вийшов у результаті. Якщо поєднати це із тим фактом, що кожен файл-зображення сьогодні стискають задля збереження місця, це явище стає зрозумілим.

Стискання файлу відбувається у два етапи: кодування, під час якого файл переводять у більш компактний формат, і декодування, коли цей процес іде навпаки. Якщо відновлений файл ідентичний оригінальному, процес компресії описують як стискання без втрат. А якщо файл-результат — лише приблизне відтворення оригіналу, це стискання із втратами: у процесі якісь його дані невідновно загубилися. Перший тип компресії використовують для текстових файлів та програм (адже тут єдина помилка може обернутися бідою). А другий тип — для фото, аудіо або відео. У більшості випадків ми не помітимо, якщо пісня або зображення відновлені недосконало. Лише у разі, коли зображення сильно стискають, можна помітити розмиття або артефакти в jpeg-файлі або неякісний звук в mp3.

Ксерокси Xerox тоді працювали із другим типом формату компресії (jbig2) для чорно-білих зображень. Тож ксерокс ідентифікував подібні шматки зображення (підписи до кімнат) і при відновленні файлу використав їхню єдину копію: підпис із 14,13 кв. м.

Проблема була не в тому, що ксерокси використовували другий тип компресії (цей баг пофіксили 2014 року). Проблема була в тому, що вони погіршували зображення дуже непомітно. Якби ксерокс просто видав розмиті копії, усі би знали, що це — неточне зображення оригіналу. Але ксерокс спродукував копії, позірно невідмінні від оригіналу, коли по факту вони такими не були.

Як на мене, цей інцидент із ксероксом варто пам’ятати зараз, коли ми думаємо про OpenAI ChatGPT та інші подібні програми, які дослідники штучного інтелекту називають лінгвістичними моделями.

Схожість між ксероксом та великою лінгвістичною моделлю може бути непомітною на перший погляд. Але давайте розглянемо такий сценарій.

Уявіть, що ви можете назавжди втратити доступ до інтернету. Готуючись до цього моменту, ви плануєте створити компактну копію усього тексту в інтернеті, щоб зберігати її на приватному сервері.

На жаль, на вашому сервері є лише 1% від потрібного місця, тож використовувати алгоритм компресії без втрат не вийде. Натомість ви використовуєте другий тип компресії, який помічає статистичні закономірності у тексті та зберігає їх у спеціальному файловому форматі. Уявімо також, що у вас — практично необмежні обчислювальні потужності, і ваш алгоритм може ідентифікувати неймовірно деталізовані закономірності. В такий спосіб ви можете досягти бажаної компресії 100 до 1.

Отже, втрата інтернет-доступу вже не видається такою жахливою: вся інформація інтернету збережена у вас на сервері. Але нюанс в тому, що текст настільки стиснуто, що в ньому неможливий пошук по точній цитаті. Для цього ви створюєте інтерфейс, який приймає запити у вигляді запитань і видає відповіді, в яких міститься суть того, що зберігається у вас на сервері.

Те, що я щойно описав, звучить схоже на ChatGPT або будь-яку іншу велику лінгвістичну модель.

Подумайте про ChatGPT як про розмитий jpeg усього тексту в інтернеті. Він містить значну кількість даних з інтернету, але в такий само спосіб, як jpeg містить значну кількість даних оригінального HD-зображення. Якщо ви спробуєте пошукати в ньому певну послідовність бітів, ви їх не знайдете. Все, що ви зможете знайти — якесь наближення. Але оскільки це наближення подається у формі граматично правильного тексту, його приймають на віру. Ви все ще дивитеся на розмите зображення, але здається при тому, що картинка не втратила чіткості.

Така аналогія — це не просто спосіб зрозуміти, як ChatGPT перепаковує дані, знайдені у вебі, за допомогою інших слів. Це також спосіб зрозуміти суть «галюцинацій» або ж беззмістовних відповідей на фактичні запитання, які подекуди видають великі моделі, такі як ChatGPT. Ці «галюцинації» є «артефактами компресії», але подібно до неправильних підписів, згенерованих ксероксом, вони достатньо правдоподібні для того, щоб вимагати складної процедури перевірки і порівняння до оригіналу (який в цьому випадку є усім знанням інтернету або ж нашим знанням світу).

В аналогії з’являється ще більше сенсу, якщо згадати, що поширена техніка для компресії з втратами — це інтерполяція. Коли програма обробки зображень працює з фото і має реконструювати втрачений під час компресії піксель, вона дивиться на пікселі поруч і вираховує щось середнє. Те саме намагається робити ChatGPT, коли його просять описати загублену шкарпетки у пралці у стилі Декларації незалежності США. Він аналізує дві точки «лексичного простору» та генерує текст, який би зайняв лакуну між ними:

When in the Course of human events, it becomes necessary for one to separate his garments from their mates, in order to maintain the cleanliness and order thereof.

У ChatGPT настільки добре виходить інтерполяція, що користувачі розважаються в такий спосіб. Вони відкрили інструмент «розмиття», але не для картинки, а для тексту, і бавляться з ним.

Враховуючи, що великі лінгвістичні моделі (як ChatGPT) часто описують як передові технології штучного інтелекту, їхній опис як алгоритму недосконалої компресії може видатися зневажливим. Але як на мене, така перспектива коригує нашу тенденцію антропоморфізувати лінгвістичні моделі.

У цій аналогії є ще один нюанс.

З 2006 року дослідник на ім’я Маркус Хаттер запропонував грошову винагороду, відому як Премію за стискання людського знання або ж Премію Хаттера будь-кому, хто може без втрат стиснути шматок «Вікіпедії» розміром 1 ГБ краще (тобто, до меншого файлу), ніж попередній переможець. Zip-формат стискає гігабітний файл Хаттера до приблизно 300 МБ. А один із нещодавніх переможців зумів стиснути його до 115 МБ. Це — не просто вправляння у технології. Хаттер вірить, що найякісніша текстова компресія може бути важливою у побудові штучного інтелекту людського рівня. Частково тому, що найбільший рівень компресії може бути досягнений через розуміння тексту.

Щоб краще зрозуміти зв’язок компресії та розуміння, уявіть, що у вас є текстовий файл, що містить мільйон прикладів додавання, віднімання, множення та ділення. Хоча будь-який алгоритм стискання міг би зменшити розмір цього файлу, найкращий спосіб досягти найвищого рівня компресії цього тексту — вивести принципи арифметики і написати код для калькулятора. Адже за допомогою калькулятора можна не лише ідеально відновити ваш мільйон прикладів з файлу, але й будь-яку арифметичну дію взагалі.

Подібну логіку можна застосувати і до проблеми стискання шматка «Вікіпедії», яку ми оговорювали раніше. Адже, якщо алгоритм компресії «знає», наприклад, другий закон Ньютона (F = ma), він зможе відкинути масу слів зі сторінок про фізику: за допомогою формули він зможе їх відновити. Чим більше програма «знає» про попит та пропозицію, тим більше слів вона зможе відкинути, коли стискатиме сторінки про економіку, тощо. Якщо лінгвістична модель «знає», що у вебі фраза «пропозиція низька» часто трапляється поруч із фразою «ціна висока», значить, вона зможе відповісти про підвищення цін на питання про зниження пропозиції.

Але чи означає це, що моделі справді «розуміють», про що говорять?

Повернімося до арифметики. Якщо попросити GPT-3 (модель, на якій побудовано ChatGPT) додати чи відняти пару чисел, він майже завжди відповість правильно, якщо числа складаються з двох цифр. Але його точність сильно погіршується із великими числами: не аж так багато сторінок у вебі містить текст на кшталт «245 + 821», а отже чатбот, попри запам’ятовування великої кількості інформації, не розуміє принципів арифметики. Його статистичний аналіз арифметичних прикладів у мережі дозволяє надавати користувачеві наближені відповіді, але не завжди точні.

Якщо чатбот фейлиться у шкільній арифметиці, як же вийшло, що він здатен писати тексти університетського рівня? Невже великі лінгвістичні моделі, неспроможні розуміти арифметику, можуть розуміти, наприклад, економіку?

Думаю, є простіше пояснення.

Уявімо, якби ChatGPT вмів проводити компресію без втрат. У такому разі він завжди цитував би дослівні відповіді на питання з відповідної веб-сторінки. А ми ставилися би до нього, як до невеликого удосконалення до звичайного пошуку, і не захоплювалися би ним так. Те, що чатбот переказує дані з вебу своїми словами, робить його схожим на студента, що розповідає матеріал «від себе», замість цитувати по пам’яті. Це створює ілюзію того, що чатбот, подібно до студента, розуміє матеріал. Тож, коли ми розглядаємо послідовності слів, компресія із втратами виглядає «розумнішою» за компресію без втрат (або ж цитування «напам’ять”).

Можемо розглянути кілька сценаріїв використання чатбота, які пропонуються зараз. Наприклад, він може генерувати контент для сайтів. Але якщо брати нашу аналогію з розмитим jpeg-файлом, чим більше текстів, згенерованих чатботом, з’являтиметься в мережі, тим більше вона перетворюватиметься на розмиту версію самої себе.

Поки що у нас небагато даних про наступну версію цієї технології: GPT-4. Але я можу зробити прогноз: ймовірно, збираючи тексти для тренування GPT-4, розробники постаралися виключити з них тексти, згенеровані GPT-3. Якщо так, то це означатиме, що аналогія з компресією є корисною. Постійні спроби перезбереження зображення з часом створюватимуть все більше артефактів компресії, щоразу файл втрачатиме більше інформації. Це цифровий аналог ксерокопії з ксерокопії у старі часи.

І навпаки, якщо нові версії моделі використовуватимуть тексти, згенеровані попередніми (тобто, якість тексту стане прийнятною для навчання нових моделей), ми зможемо зробити висновок, що якість тексту прийнятна і для нас. Аналогія з компресією більше не працюватиме.

Що ж до того, чи допоможе такий чатбот письменникам-початківцям і всім, хто працює із текстом…

Звісно, ніхто не може розписуватися за усіх письменників, але від себе можу сказати: починати із розмитої копії неоригінальної роботи — не дуже вдалий спосіб створити щось оригінальне. Перш ніж стати хорошим письменником, ви створите купу неоригінальних текстів. Це — важлива частина навчання на шляху до створення чогось унікального. Години, які ви проводите за підбором слів та компонуванням речень навчають вас того, як саме проза доносить до читача зміст.

І на відміну від тексту, згенерованого ШІ, ваш неоригінальний текст — це не копія, передана ясними словами, це — оригінальне мислення, лише недосконало висловлене.

У письменстві немає нічого містичного або магічного. Але для нього потрібне дещо більше, аніж покласти документ у ксерокс і натиснути «Друк». Можливо, у майбутньому ми побудуємо ШІ, який генеруватиме гарну прозу, базовану на його власному досвіді існування в світі. День, коли ми цього досягнемо, буде великим. Але він все ще перебуває за горизонтом наших прогнозів.

Поки що варто спитати себе: яка користь із сервісу, що перефразовує інтернет? Якби ми втрачали доступ до інтернету назавжди і мали зберегти його копію на серверах з обмеженим місцем на дисках, моделі типу ChatGPT стали би в нагоді (якщо ми могли би стримати їх від фабрикування контенту). Але ми не втрачаємо доступ до інтернету.

Тож, навіщо використовувати розмитий jpeg, коли можна подивитися оригінал?