Grammarly собирает тексты на украинском. Это нужно для развития украинского NLP (обработки естественного языка)

2141

Украинская компания Grammarly, которая развивает инструменты работы с текстами в интернете, хочет создать первый анотированный GEC-корпус на украинском языке. Это массив текстов, который необходим для развития систем распознавания речи, голосовых ассистенты и инструментов исправления грамматики.

Что нужно для создания GEC-корпуса

Чтобы алгоритмы могли «заговорить» на украинском, Grammarly собирает тексты пользователей — это могут быть записи из соцсетей, блоги, статьи, сочинения, стихи и письма. Тексты проверят лингвисты, чтобы убрать стилистические и орфографические ошибки.

«Украинский — это язык с развитой морфологией. В отличие от английского, каждое слово здесь имеет много словоформ («книга», «книгой», «книгами»). Методы NLP, разработанные для английского, не всегда будут оптимальными для украинского. Поиск лучших методов работы с такими языками — это отдельная задача, и наш корпус здесь пригодится», — поясняют в компании.

Что даст этот проект

  • ускорит развитие голосовых ассистентов и онлайн-систем для исправления грамматики на украинском языке,
  • посодействует использованию качественного украинского языка в интернете,
  • увеличит количество открытых инструментов для NLP-изучения украинского (natural language processing или обработка естественного языка).

Как помочь

GEC-корпус украинского языка будет опубликован в свободном доступе. Материальное вознаграждение за участие в его создании не предусмотрено, однако таким образом любой пользователь может сделать свой вклад в развитие украинского языка в онлайне.

Сбор продлится до 13 сентября. Предоставить готовый текст или написать текст с нуля можно здесь.

Оставить комментарий

Комментарии | 0

Поиск