OpenAI представили нову модель ШІ Voice Engine, яка відтворює голоси – що вона може

OpenAI презентували нову модель штучного інтелекту Voice Engine, яка на основі невеликого аудіо може відтворити голос людини. Поки вона доступна не для всіх: компанія показала можливості нової моделі, як її можна використовувати у житті та застерегла від недобросовісного використання.

Voice Engine – що це

Нова модель штучного інтелекту від OpenAI може відтворити голос людини на основі 15-секундного аудіоприклада. Потім, якщо моделі дати якийсь текст, вона прочитає його голосом тієї людини: мовою спікера чи іншою.

Розроблювати Voice Engine компанія почала наприкінці 2022 року. В OpenAI кажуть, що технологія вже забезпечує роботу попередньо встановлених голосів для API перетворення тексту в мовлення та функції читання вголос у ChatGPT.

Наприкінці 2023 року OpenAI вирішили протестувати, як їхню модель можна використати у реальному житті. Тому відкрили до нього доступ кільком компаніям, а на своїй сторінці показали результат – спочатку продемонстрували оригінал голосу, а тоді його згенеровану копію.

«Ці невеликі впровадження допомагають нам вдосконалити наш підхід, заходи безпеки та роздуми про те, як Voice Engine може бути використаний на благо в різних галузях», – йдеться на сторінці компанії.

Як партнери вбудували Voice Engine у свою роботу

Допомога дітям та людям, які не вміють читати. Компанія Age of Learning займається освітніми технологіями, спрямованими на академічний успіх дітей. За допомогою Voice Engine вони змогли «створити більше контенту для ширшої аудиторії».
Переклад вмісту. Платформа візуальної розповіді з ШІ HeyGen почала використовувати Voice Engine для перекладу відео та аудіо, щоб охопити ширшу аудиторію. Цікаво, штучний інтелект зберігає акцент: якщо спікер франкомовний, то згенерована англійська версія його голосу зробить йому французький акцент.
Надання послуг у віддалених районах. Dimagi – розробляють інструменти для медпрацівників у громадах. Вони використали ШІ для надання інтерактивного зворотного зв’язку рідною мовою кожного працівника. Наприклад: консультування матерів про грудне вигодовування.
Спілкування для людей з інвалідністю чи тих, хто тимчасово втратили голос внаслідок хвороб.

Voice Engine – це безпечно?

Поки OpenAI не хочуть запускати нову модель для широкого користування. Вони «усвідомлюють серйозні ризи», які «особливо важливі в рік виборів».

Наприклад, уряд США вже намагається стримувати неетичне використання голосової технології ШІ. Минулого місяця Федеральна комісія зі зв’язку заборонила автоматичні виклики з використанням ШІ-голосу після того, як люди отримали спам-дзвінки від клонованого штучним інтелектом голосу президента Джо Байдена, пише The Verge.

Тому OpenAI змусило партнерів підписувати угоди з тим, хто надають свої голоси для майбутнього використання. Також треба чітко маркувати, коли звучать згенеровані голоси. Окрім цього, компанія зробила «водні знаки» – так відстежуватимуть, як використовують їхню ШІ-модель.

Окрім цього, OpenAI заохочує: скасування голосової автентифікації для доступу до банківських рахунків, просвітлення громадськості у цій темі та розробку методів відстеження походження аудіовізуального контенту.