Meta представила у вільний доступ ШІ для розпізнавання 4000 і відтворення 1100 мов

Компанія Meta виклала у відкритий доступ модель штучного інтелекту Massively Multilingual Speech (MMS), яка розпізнає усне мовлення 4000 мовами та відтворює (тобто перетворює текст на мову) більш ніж 1100 мовами. Як повідомляє Engadget, вихідний код проекту доступний на GitHub і використовувати його може будь-хто.

Проект Massively Multilingual Speech (MMS) може розпізнавати понад 4000 мов і створювати мовлення (синтез тексту в мовлення) понад 1100. Як і більшість інших публічно оголошених проектів штучного інтелекту, Meta використовує MMS з відкритим кодом, щоб допомогти зберегти мовне розмаїття та заохотити дослідників будувати свої проекти на його основі.
Моделі розпізнавання мовлення та синтезу зазвичай потребують навчання на тисячах годин аудіо з супровідними мітками транскрипції. (Мітки мають вирішальне значення для машинного навчання, дозволяючи алгоритмам правильно класифікувати та «розуміти» дані). Але для мов, які не широко використовуються в промислово розвинутих країнах такий підхід не працює.
Тому Meta використала нетрадиційний підхід до збору аудіоданих, взявши за основу прослухування аудіозаписів перекладених релігійних текстів. «Ми звернулися до релігійних текстів, таких як Біблія, які були перекладені багатьма різними мовами та чиї переклади були широко вивчені для дослідження мовного перекладу на основі тексту», – заявили в компанії. Включивши немарковані записи Біблії та подібних текстів, дослідники Meta збільшили кількість доступних мов моделі до понад 4000.
«Хоча вміст аудіозаписів є релігійним, наш аналіз показує, що це не схиляє модель до створення більш релігійної мови», — написали в компанії. При цьому в Meta попереджають, що її нові моделі не ідеальні. Наприклад, існує певний ризик того, що модель перетворення мовлення в текст може неправильно транскрибувати вибрані слова чи фрази.
Тепер, коли Meta випустила MMS для дослідження з відкритим вихідним кодом, вона сподівається змінити тенденцію скорочення технологій у світі до 100 мов, які найчастіше підтримуються Big Tech.

Штучний інтелект

Meta представила у вільний доступ ШІ для розпізнавання 4000 і відтворення 1100 мов

Читати більше