Компания Meta выложила в открытый доступ модель искусственного интеллекта Massively Multilingual Speech (MMS), которая распознает устную речь на 4000 языках и воспроизводит (то есть превращает текст в речь) на более чем 1100 языках. Как сообщает Engadget, исходный код проекта доступен на GitHub и использовать его может любой желающий.
- Проект Massively Multilingual Speech (MMS) может распознавать более 4000 языков и создавать речь (синтез текста в речь) более 1100. Как и большинство других публично объявленных проектов искусственного интеллекта, Meta использует MMS с открытым исходным кодом, чтобы помочь сохранить языковое разнообразие и поощрить исследователей строить свои проекты на его основе.
- Модели распознавания речи и синтеза обычно требуют обучения на тысячах часов аудио с сопроводительными метками транскрипции (метки имеют решающее значение для машинного обучения, позволяя алгоритмам правильно классифицировать и «понимать» данные). Но для языков, которые не широко используются в промышленно развитых странах такой подход не работает.
- Поэтому Meta использовала нетрадиционный подход к сбору аудиоданных, взяв за основу прослушивание аудиозаписей переведенных религиозных текстов. «Мы обратились к религиозным текстам, таким как Библия, которые были переведены на многие разные языки и чьи переводы были широко изучены для исследования языкового перевода на основе текста», – заявили в компании. Включив немаркированные записи Библии и подобных текстов, исследователи Meta увеличили количество доступных языков модели до более 4000.
- «Хотя содержимое аудиозаписей является религиозным, наш анализ показывает, что это не склоняет модель к созданию более религиозного языка», – написали в компании. При этом в Meta предупреждают, что ее новые модели не идеальны. Например, существует определенный риск того, что модель преобразования речи в текст может неправильно транскрибировать выбранные слова или фразы.
- Теперь, когда Meta выпустила MMS для исследования с открытым исходным кодом, она надеется изменить тенденцию сокращения технологий в мире до 100 языков, которые чаще всего поддерживаются Big Tech.