Штучний інтелект вперше навчили говорити українською мовою (зі сленгом і без цензури). Це вдалося зробити розробникам із технологічної креативної агенції ISD Group. У своїй колонці для AIN.UA Віктор Шкурба, засновник та керівник агенції, розповідає, як це було.
Розробка інтелекту зайняла півроку: від складення мовного корпусу до шліфовки кінцевого результату. Команда проекту складалася із 8 людей.
GPT-2
Свою версію АІ наші розробники створили на базі моделі GPT-2. Це напрацювання від Hugging Face. Воно дозволяє нейромережі генерувати зв’язний текст, який максимально нагадує мову людей. В основі — мовна модель яка генерує розподіл імовірностей для наступного слова, базуючись на попередніх та будує логічне дерево послідовностей.
На першому етапі головним викликом було створити таку модель, яка зможе спілкуватися українською, як звичайна людина, — зі сленгом і без цензури.
Спочатку розробники створили мовний корпус нейромережі за допомогою відкритих баз словників українських розробників:
- Lang-uk — неформальна група ентузіастів, які ставлять на меті покращення комп’ютерної обробки україномовних текстів.
- Brown-uk — браунський корпус української мови.
- ВЕСУМ — великий електронний словник української мови.
- ГРАК — генеральний регіонально анотований корпус української мови.
Як основу для пре-тренування моделі зібрали 3 гігабайти творів українською з онлайн бібліотек.
Після цього, генератор GPT-2 доповнили інструментами, які допомагають будувати контекст та коректні послідовності слів в текстах:
- Hugging Face Transformers — набір сучасних NLP моделей.
- PyTorch.
- LanguageTool — інструмент коригування. Для проєкту створювали словник сленгу.
Цього було мало, адже на виході нейромережа «говорила» старомодно. Згодом до мовного корпусу додали субтитри сучасних фільмів, серіалів, блоги, твіти та інший user-generated контент із соціальних мереж. Таким чином інтелект почав говорити сучасно та сленгово.
Жива мова
На другому етапі розробники вирішили піти на експеримент. Не повторювати створення нейтральної системи, штучного порадника, а піти далі і надати йому характеру. Це поганий хлопець, навіть трохи божевільний, який постійно підштовухує своїх друзів на якісь шалені вчинки.
Для цього до збору датасету залучили молодь через відкриті ігрові телеграм-боти. Користувачі давали відповіді на питання та своїми відповідями годували нейромережу.
А щоб додати зібраним ідеям різноманітності та екстриму АІ піддали своєрідному «канібалізму». Через нейромережу в декілька раундів проганяли вигадані нею ж ідеї, позначали найбільш вдалі та моніторили результат.
Для цього в ISD створили систему похвали і покарань для АІ. Кожен згенерований варіант набирав певний score, що складався з «оцінок» наступних параметрів: ширини контексту, врахування теми попереднього речення, зв’язності та віддаленості від вихідних варіантів датасету. За врахування всіх параметрів, нейромережа отримувала «плюси» — rewards, але за зловживання ними система давала «мінус»— penalties.
Таким чином вдалося не просто запрограмувати нейромережу і змусити її виконувати певні дії за шаблонами мовного корпусу та людських варіантів датасету, а скоригувати генерацію послідовностей у сторону найбільш непередбачуваних та неординарних відповідей.
Подивитися, що вийшло, та випробувати перший штучний інтелект, який вміє «говорити» українською можна тут. AI створили в рамках комунікації бренду REVO.
Автор: Віктор Шкурба, керівник ISD Group