Як українська команда відтворювала голос Дарта Вейдера: інтерв’ю

На початку повномасштабного вторгнення український стартап Respeecher працював над відтворенням одного із найбільш упізнаваних голосів у кіно — актора Джеймса Ерла Джонса, який озвучував Дарта Вейдера, для серіалу про Обі-Вана Кенобі.

Стартап раніше уже співпрацював із франшизою «Зоряних війн» та студією Lucasfilm: зокрема, генерував голос юного Люка Скайвокера для серіалу «Мандалорець» від Disney. Зараз команді доводилося працювати зі сховищ та коридорів, але зрештою проект вийшов дуже вдалим, а замовник був дуже задоволений результатом.

AIN.UA поговорив зі співзасновником та CTO стартапу Дмитром Бєлєвцовим про те, українському стартапу вдалося вчасно реалізувати такий складний проект фактично під час війни.

Як вийшло, що ви отримали проект від Lucasfilm?

Ми з ними доволі давно і тепло співпрацюємо. Тож, коли з’явилась необхідність у цій ролі, вони просто звернулися до нас.

Яку задачу поставили перед вашою командою?

На жаль, не можу розповідати більше, ніж уже було в публікації Vanity Fair. Завдання було: змоделювати голос Дарт Вейдера для серіалу про Обі-Вана Кенобі, за зразком «молодшого» голосу легендарного актора Джеймса Ерла Джонса.

Нам, так само як і у випадку, коли ми працювали з голосом молодого Люка Скайвокера (актора Марка Гемілла), надали доступ до архівних матеріалів та записів, що були зроблені 45 чи більше років тому.

Як замовник ставився до розробки під час війни? Не підганяли по дедлайнах?

Ні, вони насправді показали себе дуже круто і дуже підтримували нас. Не пам’ятаю жодного висловлювання щодо того, що вони не впевнені у проекті з нами. І звісно, не було тиску на нас. Усі розуміли: «Окей, тут бізнес, а тут загроза життю».

Усі наші закордонні клієнти поставилися з розумінням, всі висловили нам підтримку і постійно питали: «Як ми можемо допомогти?».

Ви працювали над цим проектом, коли почалася повномасштабна війна?

Так. Ми почали працювати над ним дещо раніше, але критична фаза розробки припала саме на початок вторгнення. 24 лютого та наступні тижні тяжко було всій команді, але з іншого боку, робота відволікала від того, що відбувалося навколо. Ми готувалися до такого варіанту розвитку подій морально та логістично, а отже затримок по проекту фактично не було. Зокрема, підготували business contingency plan, частину команди перевезли до Львова ще за пару тижнів до початку повномасштабного вторгнення.

Ця частина команди зуміла перехопити на себе спілкування з клієнтами та менеджерами у найкритичніший для проекту час. У них звісно був стрес, як і у всіх, але принаймні їм не треба було займатись евакуацією родин або ховатись від обстрілів. Хоча звісно команда у Львові теж чула сирени і сиділа по бомбосховищах, бо і там прилітало, і ніхто не знав, що буде завтра.

Ще нам помогло те, що у нас команда розподілена та гнучка, кожен може працювати самостійно, і водночас усіх поєднує загальне бачення.

Тож перші тижні війни команда у розподіленому форматі відпрацювала ідеально. Ми вписалися у всі дедлайни і реліз вийшов вчасно.

Ваш клієнт відзначав, що ваше відтворення голосу має особливий human touch. Розкажіть, як працює ваша технологія? Чи були якісь технологічні складнощі?

Загалом наше завдання було доволі стандартне. Нам надали доступ до великої кількості архівного матеріалу. Була невелика проблема, що той матеріал був трохи гіршої якості, пройшов крізь більше компресій, адже був записаний на плівку багато років тому (вона до того ж не завжди зберігалася у гарних умовах). А для сучасного кіно потрібен неймовірно якісний звук. Але нам вдалося натренувати guided-мережу на наявному матеріалі так, щоби забезпечити необхідну якість.

Що ж до human touch: на жаль, набагато більше ніж в статті VF, розповісти не зможу. Але наша технологія — це ж конвертація speech-to-speech, а не text-to-speech. Більшість компаній, які зараз займаються синтезом аудіо, починали з технології text-to-speech, і ось там нема human touch, тому що запис конвертується з тексту. Модель намагається вигадати інтонації і придумати, як би це сказала людина. І не завжди це виходить класно, часом звучить доволі штучно.

Через це голосові асистенти типу Siri або Google Assistent звучать трохи штучно?

Є дві причини, чому вони звучать «так собі». По-перше, text-to-speech — одна із них: адже фактично вони працюють як чат-бот, у якого є дерево рішень, і який генерує правильну відповідь у вигляді тексту. З цього тексту потім генерується мова. По-друге, це сервіси для дуже масштабних задач, і їм потрібно їх вирішувати відносно дешево, без побудови дорогих моделей.

Повертаючись до різниці між speech-to-speech та text-to-speech: більшість компаній в нашій ніші раніше починали саме з text-to-speech. Ми починали одразу зі speech-to-speech і мали купу часу на те, щоби виправити більшість технологічних проблем. Це одна із причин, чому в нас технологія — одна із найкращих у світі. Ми взагалі не дивилися на text-to-speech-підхід, він нам був нецікавий. Ми цілилися одразу на кіноіндустрію, найкращу якість звучання, тож саме над цим і працювали усі ці роки. Зараз ми займаємось уже і text-to-speech, щоб тримати руку на пульсі, але це не основний наш продукт.

Чи ви особисто фанат «Зоряних воєн» і чи був для вас цей проект особливий?

Це прикольний фільм, але не можна сказати, що я прямо захоплювався ним, як зазвичай захоплюються «Гаррі Поттером» або тими ж «Зоряними війнами». Але в нашій команді, яка зокрема і працювала над цим проектом, багато хадкорних фанатів: вони купляють собі постери, розбираються у переплетіннях історії. Зокрема, серед них наш звукоінженер та ML Model Operator
Богдан Бєляєв, який безпосередньо працював над голосом Вейдера.

Вони цей всесвіт напам’ять знають із дитинства і звісно це їх дуже мотивує працювати зі студією напряму.

Ви задоволені результатом?

Так. Я безмежно вдячний команді за те, як вони захендлили цю дуже складну ситуацію в плані правильної і вчасної комунікації та своєчасного делівері продукту навіть з бомбосховищ… Знаю, бо пам’ятаю, як мені особисто було складно психологічно в перші дні. Як сидів писав робочі мейли, а насправді думками був далеко, намагався осягнути, що відбувається.

У нас все дуже круто вийшло, результати нашої роботи сприйняли тепло. І це насправді теж було приємно, адже, якщо сказати аудиторії, що запис згенерований, вона більш буде схильна сказати, що він звучить штучно (хай це навіть буде справжній голос). Проте навіть із такими очікуваннями наш запис сприйняли дуже тепло.

Чи можете коротко розповісти про свої плани?

2022 року ми виросли майже вдвічі, і зараз бізнес дуже добре себе почуває. Почали розвивати нові напрямки, такі як допомога пацієнтам з захворюваннями голосового апарату. В найближчих планах: збільшувати обсяг проектів та продовжувати розвивати наш b2c-продукт — voice marketplace для любителів та професіоналів в медіа та інших індустріях, пов’язаних зі звуком.