OpenAI показала нейросеть, которая превращает аудио в текст

Читать на UA

Компания OpenAI запустила новую нейронную сеть с открытым кодом, предназначенную для транскрипции аудио в письменный текст. Она называется Whisper, и может автоматически распознавать, транскрибировать и переводить на другие языки, пишет TechCrunch.

  • OpenAI – это компания, создавшая сервис DALL-E, генерирующий изображение по тексту. А также GPT-3, генерирующий текст, будто его писал человек.
  • Whisper обучалась на основе 680 000 часов многоязычных и «многозадачных» данных, собранных из интернета. Это привело к улучшенному распознаванию уникальных акцентов, фонового шума и технического жаргона.
  • Whisper имеет свои ограничения. Поскольку система была обучена на большом количестве «зашумленных» аудио, Whisper может включать в свои транскрипции слова, которых не было. Дело в том, что он одновременно пытается предсказать следующее слово в аудио.

«Пользоваться им оказалось даже проще, чем я себе представлял. В течение 15 минут я смог с помощью Whisper транскрибировать тестовый аудиоклип, который я записал. Для кого-то с техническими знаниями, которые еще не настроили Python, FFmpeg, Xcode и Homebrew, на это уйдет около часа или двух. Однако в компании пытаются сделать процесс гораздо более простым и удобным для пользователя» — пишет обозреватель The Verge.

Почему это важно

Технология OpenAI не первый такой продукт, однако имеет одно большое преимущество – цену. Конкурентные сервисы Otter.ai или Trint стоят дорого, за встроенные функции транскрипции в Microsoft Word или Pixel нужно платить покупая программы. Whisper является бесплатным и может работать на вашем компьютере.

Оставить комментарий

Комментарии | 0

Поиск