ElevenLabs запускає власну модель перетворення мови в текст

Американський стартап ElevenLabs представив свою першу модель перетворення аудіо та відео в текст під назвою Scribe, яка, за їхніми заявами, є найточнішою у світі. Він доступний як через API для розробників, так і безпосередньо через панель керування.

Цей інструмент буде корисний для створення субтитрів, аналізу контенту та інших застосувань.

Компанія заявила, що їхня модель показала кращі результати, ніж Google Gemini 2.0 Flash і Whisper Large V3, під час тестів FLEURS & Common Voice багатьма мовами.

Scribe підтримує понад 99 мов, зокрема й українську, та демонструє високу точність у деяких з них, як-то італійська (заявлена точність 98,7%) та англійська (96,7%).

Окрім того, Scribe значно покращує якість автоматичного розпізнавання для менш представлених мов, таких як сербська, кантонська та малаялам, де інші моделі часто припускаються понад 40% помилок.

Розробники можуть інтегрувати Scribe через API, отримуючи структуровані JSON-транскрипції. Користувачі можуть уже зараз завантажувати аудіо- та відеофайли через платформу ElevenLabs.

Нещодавно стартап залучив $180 млн інвестицій та отримав оцінку у $3,3 млрд.

ElevenLabs запускає власну ШІ-модель розпізнавання мовлення Scribe

Читати більше