Деякі з найбільших технологічних компаній світу тренували свої моделі штучного інтелекту (ШІ) на транскриптах із тисяч відео YouTube без дозволу, виявило розслідування Proof News. У ньому зокрема йдеться, що субтитри з 173 536 відеороликів YouTube, зібрані з понад 48 000 каналів, використовувались такими гігантами Кремнієвої долини, як Apple, NVIDIA та Anthropic.
- Компанії зробили це попри правила YouTube, які забороняють збирати матеріали з платформи без дозволу.
- Вони використовували субтитри з навчальних каналів, таких як Khan Academy, MIT і Harvard, а також великих новинних видань, як-от The New York Times, BBC та ABC News. До списку потрапили також розважальні шоу та YouTube-зірки.
- Деякі матеріали, які використовувалися для навчання штучного інтелекту, також пропагували такі змови, як «теорія плоскої Землі».
- Власники багатьох каналів, чиї відеоролики використовувались для навчання ШІ, не знали про це. Деякі з них стурбовані, що ШІ колись зможе генерувати контент, схожий на їхній, або навіть створювати повні копії.
- Організація EleutherAI, яка створила набір даних YouTube Subtitles, не відповіла на запити щодо висновків Proof, включаючи звинувачення у використанні відео без дозволу.
- Набір даних, що є частиною їхньої колекції під назвою The Pile, містить тексти субтитрів не лише YouTube, а також матеріали з Європарламенту, Вікіпедії та електронних листів працівників Enron, які були оприлюднені в рамках федерального розслідування.
- Більшість цих даних відкриті для будь-кого в інтернеті, хто має достатньо місця і обчислювальних потужностей для доступу до них.
- Засновник EleutherAI, Сід Блек, написав на GitHub, що він створив інструмент для завантаження субтитрів з YouTube за допомогою скрипту. Цей скрипт завантажує субтитри з API YouTube так само, як браузер користувача YouTube завантажує їх під час перегляду відео.
- Блек використав майже 500 пошукових запитів, щоб знайти відео на різні теми: від науки до політики та кулінарії.
- Хоча правила користування YouTube забороняють доступ до його відео за допомогою «автоматизованих засобів», понад 2000 користувачів GitHub додали цей код до закладок або схвалили його.
Наразі компанії, що займаються розробкою ШІ, не надають прозорої інформації щодо даних, які використовуються для навчання їхніх моделей. На початку цього місяця художники та фотографи критикували Apple за те, що вона не розкриває джерела навчальних даних для Apple Intelligence, власної розробки компанії в галузі генеративного ШІ, яка цього року з’явиться на мільйонах пристроїв Apple.
YouTube, найбільше у світі сховище відео, є золотою копальнею не лише транскрипцій, але й аудіо, відео та зображень, що робить його привабливим інструментом для навчання ШІ-моделей. Керівництво OpenAI неодноразово відмовлялося публічно відповідати на запитання про те, чи використовували вони відео YouTube для навчання свого продукту штучного інтелекту Sora, який створює відео з текстових підказок.