Компанія Meta в партнерстві з UNESCO запускає нову програму зі збору аудіозаписів мови та їхніх транскрипцій для розробки майбутнього загальнодоступного штучного інтелекту. Ініціатива називається Language Technology Partner Program.
Meta шукає партнерів, які можуть надати понад 10 годин аудіозаписів із транскрипціями, великі обсяги письмових текстів (200+ речень) та набори перекладених речень різними мовами, особливо малопредставленими
Партнери працюватимуть разом із командами компанії, щоб інтегрувати ці мови в моделі розпізнавання мовлення та машинного перекладу. Коли проєкт завершать, ШІ-моделі будуть відкритими для всіх.
Наразі серед партнерів — уряд Нунавута, малонаселеної території на півночі Канади. Щоб приєднатися до проєкту, просять заповнити цю форму.
Окрім цього, Meta запускає еталонний тест для перевірки якості машинного перекладу. Його завдання — стати загальноприйнятим стандартом, який допоможе оцінювати, наскільки добре ШІ-моделі перекладають різні мови.
Він складається зі створених лінгвістами речень і покликаний «продемонструвати різноманітність людських мов».
«Зрештою, наша мета — створити інтелектуальні системи, здатні розуміти та реагувати на складні людські потреби, незалежно від мови чи культурного походження», — кажуть у компанії.
Мета позиціонує обидві ініціативи як благодійні, але вона отримає вигоду від вдосконалення моделей розпізнавання мовлення та перекладу, пише TechСrunch,
Компанія зазнала чимало критики через те, як вона обробляє контент іншими мовами (окрім англійської) на своїх платформах. Згідно з одним зі звітів, Facebook не позначив майже 70% дезінформації про COVID італійською та іспанською мовами, тоді як серед англомовного контенту цей показник становив лише 29%.
Крім того, витоки внутрішніх документів компанії показують, що арабомовні пости часто помилково позначаються як мова ворожнечі.