Grammarly выпустила версию 2.0 корпуса украинского языка

Читать на UA

Компания Grammarly опубликовала в свободном доступе UA-GEC 2.0 – вторую версию своего аннотированного GEC-корпуса украинского языка (GEC – grammatical error correction). Обновление содержит почти 34 000 предложений и его можно свободно скачать на GitHub.

Что нового

Команда Grammarly запустила волонтерский проект по созданию этого набора данных в августе 2020 года. Первую версию корпуса UA-GEC, содержащую около 20 000 предложений, компания опубликовала в открытом доступе в январе 2021 года и с тех пор работала над его расширением и улучшением. Во второй версии корпуса UA-GEC по сравнению с предыдущей имеется три ключевых изменения:

  • увеличили размер корпуса почти вдвое – до 34 000 предложений;
  • добавили более детализированную классификацию ошибок (в том числе разделили категории «грамматика» и «стиль» на еще 13 и 5 подкатегорий соответственно);
  • загрузили корпус в двух вариантах – теперь его можно использовать в двух разных задачах: исправлении только грамматики и исправлении грамматики и стиля.

Как создавался корпус UA-GEC

Создание GEC-корпуса включает несколько этапов: сбор текстов, аннотирование данных и укладка корпуса. Команда Grammarly инициировала сбор данных для первого аннотированного GEC-корпуса украинского языка в августе 2020 года через сайт проекта, где каждый желающий мог поделиться своими текстами на украинском языке (сделать перевод отрывка, написать эссе или отправить готовое сообщение). Свои тексты скачали 828 волонтеров.

На этапе аннотирования лингвисты проверяли эти предложения и аннотировали ошибки в них, т.е. исправляли их и разделяли на категории. На этапе укладки корпуса команда проверяла качество аннотирования и категоризации, корректировала сбалансированность корпуса по разным характеристикам, анализировала статистику, оформляла сами данные в удобном для использования формате, готовила документацию, а также программные инструменты, позволяющие прорабатывать корпус.

Набор данных UA-GEC 2.0 команда Grammarly опубликовала на GitHub. Он находится в свободном доступе по лицензии CC BY 4.0, позволяющей использовать его в любых целях, в том числе и коммерческих. Дополнительно к корпусу команда также выдала пакет Python, упрощающий обработку аннотированных текстовых файлов. Более подробную информацию можно найти в сопроводительной документации.

Почему это важно

В то время как для английского языка существует немало аннотированных GEC-корпусов, исторически для многих языков, включая украинский, таких данных в публичном доступе не было. Команда Grammarly задалась целью создать такой ресурс для украинского языка и сделать его доступным научному сообществу. GEC-корпус может быть полезен для исследований в области обработки природного языка, а также тренировки и улучшения моделей машинного обучения.

Чем больше данных в корпусе, тем лучше работают модели на его основе. Для сравнения: GEC-корпус немецкого языка насчитывает 25 000 предложений, чешского — около 47 000 предложений, а английского — 1 млн 167 000 предложений. Корпус UA-GEC 2.0 содержит 33735 предложений (500618 токенов).

Оставить комментарий

Комментарии | 0

Поиск