OpenAI показала нейромережу, яка перетворює аудіо в текст

Читати на RU

Компанія OpenAI запустила нову нейронну мережу з відкритим кодом, призначену для транскрипції аудіо в письмовий текст. Вона називається Whisper, і може автоматично розпізнавати, транскрибувати та перекладати інші мови, пише TechCrunch.

  • OpenAI – це компанія, що створила сервіс DALL-E, який генерує зображення за текстом. А також GPT-3, який генерує текст, ніби його писала людина.
  • Whisper навчалася на основі 680 000 годин багатомовних і «багатозадачних» даних, зібраних з інтернету. Це призвело до покращеного розпізнавання унікальних акцентів, фонового шуму та технічного жаргону.
  • Whisper має свої обмеження. Оскільки система була навчена на великій кількості «зашумлених» аудіо, Whisper може включати у свої транскрипції слова, яких не було. Річ у тім, що він одночасно намагається передбачити наступне слово в аудіо.

«Користуватися ним виявилося навіть простіше, ніж я собі уявляв. Протягом 15 хвилин я зміг за допомогою Whisper транскрибувати тестовий аудіокліп, який я записав. Для когось із технічними знаннями, які ще не налаштували Python, FFmpeg, Xcode та Homebrew, на це знадобиться близько години чи двох. Проте в компанії намагаються зробити процес набагато простішим і зручнішим для користувача» — пише оглядач The Verge.

Чому це важливо

Технологія OpenAI не перший такий продукт, однак має одну велику перевагу — ціну. Конкурентні сервіси Otter.ai чи Trint коштують дорого, за вбудовані функції транскрипції у Microsoft Word або Pixel, потрібно платити купляючи програми. Whisper є безкоштовним і може працювати на вашому комп’ютері.

Залишити коментар

Коментарі | 0

Пошук