Украинская компания Grammarly, которая развивает инструменты работы с текстами в интернете, хочет создать первый анотированный GEC-корпус на украинском языке. Это массив текстов, который необходим для развития систем распознавания речи, голосовых ассистенты и инструментов исправления грамматики.

Что нужно для создания GEC-корпуса

Чтобы алгоритмы могли “заговорить” на украинском, Grammarly собирает тексты пользователей – это могут быть записи из соцсетей, блоги, статьи, сочинения, стихи и письма. Тексты проверят лингвисты, чтобы убрать стилистические и орфографические ошибки.

“Украинский – это язык с развитой морфологией. В отличие от английского, каждое слово здесь имеет много словоформ (“книга”, “книгой”, “книгами”). Методы NLP, разработанные для английского, не всегда будут оптимальными для украинского. Поиск лучших методов работы с такими языками – это отдельная задача, и наш корпус здесь пригодится”, – поясняют в компании.

Что даст этот проект

  • ускорит развитие голосовых ассистентов и онлайн-систем для исправления грамматики на украинском языке,
  • посодействует использованию качественного украинского языка в интернете,
  • увеличит количество открытых инструментов для NLP-изучения украинского (natural language processing или обработка естественного языка).

Как помочь

GEC-корпус украинского языка будет опубликован в свободном доступе. Материальное вознаграждение за участие в его создании не предусмотрено, однако таким образом любой пользователь может сделать свой вклад в развитие украинского языка в онлайне.

Сбор продлится до 13 сентября. Предоставить готовый текст или написать текст с нуля можно здесь.