Компанія Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію свого анотованого GEC-корпусу української мови (GEC — grammatical error correction). Оновлення містить майже 34 000 речень і його можна вільно завантажити на GitHub.
Що нового
Команда Grammarly запустила волонтерський проєкт зі створення цього набору даних у серпні 2020 року. Першу версію корпусу UA-GEC, яка містила близько 20 000 речень, компанія опублікувала у відкритому доступі у січні 2021 року та відтоді працювала над його розширенням та покращенням. У другій версії корпусу UA-GEC порівняно з попередньою є три ключові зміни:
- збільшили розмір корпусу майже вдвічі — до 34 000 речень;
- додали більш деталізовану класифікацію помилок (зокрема розділили категорії «граматика» і «стиль» на ще 13 і 5 підкатегорій відповідно);
- завантажили корпус у двох варіантах — тепер його можна використовувати у двох різних завданнях: виправленні тільки граматики і виправленні граматики та стилю.
Як створювався корпус UA-GEC
Створення GEC-корпусу охоплює кілька етапів: збір текстів, анотування даних та укладання корпусу. Команда Grammarly ініціювала збір даних для першого анотованого GEC-корпусу української мови у серпні 2020 року через сайт проєкту, де кожен охочий міг поділитись своїми текстами українською мовою (зробити переклад уривку, написати есе або надіслати готовий допис). Свої тексти завантажили 828 волонтерів.
На етапі анотування лінгвісти перевіряли ці речення та анотували помилки у них —тобто, виправляли їх та розділяли на категорії. На етапі укладання корпусу команда перевіряла якість анотування й категоризації, коригувала збалансованість корпусу за різними характеристиками, аналізувала статистику, оформлювала самі дані в зручному для використання форматі, готувала документацію, а також програмні інструменти, які дозволяють опрацьовувати корпус.
Набір даних UA-GEC 2.0 команда Grammarly опублікувала на GitHub. Він перебуває у вільному доступі за ліцензією CC BY 4.0, яка дозволяє використовувати його з будь-якою метою, зокрема й комерційною. Додатково до корпусу команда також видала пакет Python, який спрощує обробку анотованих текстових файлів. Докладніші відомості можна знайти у супровідній документації.
Чому це важливо
Тоді як для англійської мови існує чимало анотованих GEC-корпусів, історично для багатьох мов, включно з українською, таких даних у публічному доступі не було. Команда Grammarly поставила за мету створити такий ресурс для української мови та зробити його доступним науковій спільноті. GEC-корпус може бути корисним для досліджень у сфері обробки природної мови, а також тренування та покращення моделей машинного навчання.
Що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 000 речень, чеської — близько 47 000 речень, а англійської — 1 млн 167 000 речень. Корпус UA-GEC 2.0 містить 33 735 речень (500 618 токенів).