Американський стартап ElevenLabs представив свою першу модель перетворення аудіо та відео в текст під назвою Scribe, яка, за їхніми заявами, є найточнішою у світі. Він доступний як через API для розробників, так і безпосередньо через панель керування.
Цей інструмент буде корисний для створення субтитрів, аналізу контенту та інших застосувань.
Компанія заявила, що їхня модель показала кращі результати, ніж Google Gemini 2.0 Flash і Whisper Large V3, під час тестів FLEURS & Common Voice багатьма мовами.
Scribe підтримує понад 99 мов, зокрема й українську, та демонструє високу точність у деяких з них, як-то італійська (заявлена точність 98,7%) та англійська (96,7%).
Окрім того, Scribe значно покращує якість автоматичного розпізнавання для менш представлених мов, таких як сербська, кантонська та малаялам, де інші моделі часто припускаються понад 40% помилок.
Розробники можуть інтегрувати Scribe через API, отримуючи структуровані JSON-транскрипції. Користувачі можуть уже зараз завантажувати аудіо- та відеофайли через платформу ElevenLabs.
Нещодавно стартап залучив $180 млн інвестицій та отримав оцінку у $3,3 млрд.