Модерацію токсичного контенту для ChatGPT виконували кенійці

Прагнучи зробити ChatGPT менш токсичним, OpenAI використовувала кенійських аутсорсерів, які протягом всього робочого дня переглядали жахливий контент, отримуючи за це менше $2 на годину. Про це стало відомо журналістам TIME.

В рамках розслідування, TIME переглянув сотні сторінок внутрішніх документів компанії-аутсорсера Sama та замовника OpenAI, включаючи платіжні відомості працівників, і опитав чотирьох співробітників з Кенії, які працювали над проектом, на умовах анонімності.

AIN.UA пропонує стислу версію розслідування.

Проблема з навчанням

Працюючи над своїм революційним ШІ, OpenAI стикнулася з проблемою. Попередник ChatGPT, GPT-3, вже демонстрував приголомшливу ефективність у створенні текстів, але було одне але: час від часу додаток видавав абсолютно жахливі ремарки. Заклики до насильства, сексизм, расизм тощо. Нічого дивного, враховуючи що штучний інтелект навчався на тестах, взятих з інтернету — найбільшого в світі архіву людської мови. А відповідно, і людських пороків, викладених у словесній формі. Токсичність та упередженість – якості, які мільйони людей щоденно транслюють в інтернет, і які ШІ відповідно засвоїв.

Легкого способу очистити бази навчальних даних від токсичності не існувало. Команді із сотень людей знадобилися б десятиліття, щоб вручну все проглянути. Тому OpenAI вирішили вибити клин клином: створити додатковий ШІ, який вмів би виявляти токсичність і видаляти її з баз даних чат-боту.

Задумка проста: навчити ШІ виявляти токсичні випади на численних прикладах мови насильства, ненависті та сексуальних збочень, а потім вбудувати в ChatGPT, щоб позбавити той дурного тону.

Але як це зробити? Тільки з допомогою великої кількості живих людей, які будуть аналізувати десятки тисяч фрагментів тексту, взятих із найтемніших куточків інтернету, і пояснювати ШІ, що добре, а що погано. Цю роботу для OpenAI виконували працівники аутсорсингової компанії Sama.

Токсичний підряд

Аутсорсинговим партнером OpenAI у Кенії у листопаді 2021 року стала компанія Sama, розташована в Сан-Франциско. Вона наймає працівників у Кенії, Уганді та Індії, які аналізують контент для клієнтів Кремнієвої долини, таких як Google, Meta та Microsoft. Sama рекламує себе як компанію з «етичного штучного інтелекту» і стверджує, що допомогла вирватися з бідності понад 50 000 людей.

Документи, які перевірив TIME, показують, що наприкінці 2021 року OpenAI підписала з Sama три контракти на загальну суму близько $200 000 для маркування текстових описів сексуальних збочень, ненависті та насильства. Над маркуванням працювали близько 30 людей, розділені на три команди – по одній на кожну тему.

За свою роботу кенійці отримували заробітну плату від $1,32 до $2 на годину залежно від стажу та ефективності. Те, з чим їм доводилося мати справу за ці гроші, важко навіть уявити: тисячі фрагментів тексту, частина з яких детально описували такі ситуації, як сексуальне насильство над дітьми, зоофілія, вбивство, самогубство, тортури, самоушкодження та інцест.

У той же час, у контрактах зазначено, що OpenAI платив працівникам Sama по $12,50 на годину – в 6-9 разів більше, ніж ті фактично отримували. За словами трьох співробітників Sama, наймолодші спеціалісти з маркування даних, які становили більшість команди, отримували базову зарплату в розмірі 21 000 кенійських шилінгів ($170) на місяць. Вони також отримували щомісячні бонуси близько $70 через характер своєї роботи, та комісію за виконання ключових показників ефективності, таких як точність і швидкість.

Агент, який працює в дев’ятигодинну зміну, міг розраховувати щонайменше $1,32 на годину після сплати податків, а якщо він перевищить усі цільові показники, ця ставка могла досягати $1,44 на годину. Більш старші маркувальники, чия робота полягала в тому, щоб перевіряти роботу джунів — могли отримувати чистими до $2 на годину, якщо досягали всіх своїх KPI.

У Кенії не існує мінімальної заробітної плати, але на той час, коли ці люди були найняті на проект, мінімальна заробітна плата для портьє в Найробі становила $1,52 за годину.

Травматичний досвід за $2 на годину

Троє співробітників розповіли TIME, що вони мали прочитати та промаркувати від 150 до 250 уривків тексту за дев’ятигодинну зміну. Ці уривки могли налічувати від 100 слів до понад 1000 слів кожен. Всі співробітники, опитані TIME, зазначили, що ця робота їх психічно виснажувала. Сеанси з психологами, які пропонувала компанія, були занадто рідкісними та не допомагали. Разом з цим, компанія ставила їм високі вимоги продуктивності на роботі. Двом респондентам надали лише можливість відвідувати групові заняття, а одному Sama неодноразово відмовляла у тет-а-тет сесії з психологом.

Один із співробітників розповів TIME, що він страждав від видінь після прочитання фрагменту, як чоловік займається сексом із собакою в присутності маленької дитини.

«Це були тортури. Вам неодмінно попадеться кілька подібних фрагментів протягом робочого тижня. І до самої пʼятниці ви ходитимете збентежений, намагаючись не думати про це», – розповів він.

Представник Sama заперечив, що працівники мали доступ лише до групових сеансів. За його словами, вони мали право як на індивідуальні, так і на групові заняття з «професійно підготовленими та ліцензованими психіатричними терапевтами». І що ці терапевти були доступні в будь-який час.

В компанії також стверджують, що нормою за зміну було 70 уривків тексту, а не до 250, і що працівники заробляли від $1,46 до $3,74 на годину після сплати податків. «Ставка в розмірі $12,50 покриває всі витрати, такі як інфраструктурні витрати, а також зарплату та виплати для співробітників та їхніх супервайзерів та тімлідів», — додав речник.

OpenAI підтвердив, що співробітники Sama в Кенії працювали над інструментом для виявлення токсичного вмісту, який згодом було вбудовано в ChatGPT. Представник компанії також заявив, що OpenAI не виставляла жодних цільових показників продуктивності, і що виключно Sama відповідала за оплату праці та психічне здоров’я своїх співробітників.

Чи працював OpenAI з іншими фірмами з маркування даних, крім Sama, над цим проектом – не відомо, оскільки компанія не розкриває своїх підрядників.

«Непорозуміння», що призвело до кінця співпраці

Sama скасувала роботу над всіма проектами OpenAI у лютому 2022 року – на вісім місяців раніше, ніж планувалося. Це сталося після того, як OpenAI підрядив Sama на маркування зображень, що містять токсичний зміст. Sama встигла передати замовнику 1400 промаркованих зображень, перш ніж розірвати контракт.

Деякі з цих зображень були віднесені до категорії «C4» — внутрішня мітка OpenAI, яка позначає сексуальне насильство над дітьми. У пакет також включено зображення «C3» (зоофілія, зґвалтування і сексуальне рабство) і зображення «V3», які зображують графічні деталі смерті, насильства чи серйозних тілесних ушкоджень. Згідно з платіжними документами, OpenAI заплатив Sama $787,50 за цей масив.

Такі категорії зображень заборонені законодавством США, що викликало занепокоєння у менеджменту Sama через декілька тижнів роботи над проектом. Компанія скасувала всі контракти з OpenAI – рішення пояснили тим, що «угода про збір зображень не містить жодних посилань на незаконний контент», і лише після початку роботи OpenAI надіслала «додаткові інструкції» щодо «деяких незаконних категорій». Осіб, відповідальних за те, що Sama взялася виконувати завдання попри законодавчі обмеження, звільнили.

В OpenAI заявили, що не збиралися збирати зображення категорії C4 і «виникло непорозуміння».

Після розірвання контрактів між Sama та OpenAI, більшість із приблизно трьох десятків працівників були переведені на інші низькооплачувані проекти без бонусів $70 на місяць. Інші втратили роботу.

Чому це цікаво

Запущений у листопаді минулого року ChatGPT назвали однією з найприголомшливіших технологічних інновацій 2022 року. Вже за тиждень у нього було більше мільйона користувачів. Це зробило OpenAI потенційно однією з найдорожчих у світі ШІ-компаній. Компанія вже веде переговори з інвесторами про залучення коштів з оцінкою в $29 млрд, включаючи потенційну інвестицію від Microsoft у $10 млрд.

Досягнення проекту дійсно вражають. ШІ чат-бот може генерувати текст практично на будь-яку тему. Але без участі великої кількості людей у навчанні алгоритмів цей успіх був би неможливий. Зміст їхньої роботи та незадовільні умови праці додають неприємного присмаку блискучій історії успіху ChatGPT. Ці люди-невидимки залишаються на узбіччі багатомільярдної індустрії, яка була б неможливою без їхнього внеску.

Sama розірвала контракт з OpenAI не просто так – через якийсь кейс «непорозуміння». Цьому передувала низка інших скандалів, зокрема подібний проект з маркуванням токсичних картинок для Facebook. Щоб відбілити репутацію компанії, Sama оголосила, що більше не буде надавати послуг з модерації контенту.

Та Sama – не єдина компанія, яка надавала такі послуги, експлуатуючи населення країн Третього світу. Допоки є попит – буде і пропозиція.

«Будь-яка згадка «Азову» блокується». Українка, що модерує TikTok — про роботу та контент у війну

Штучний інтелект

Модерацію токсичного контенту для ChatGPT виконували кенійці. Їм платили менше $2 на годину