Как улучшить Google Voice — советы украинского изобретателя

04 Июня, 2014, 18:20

2080

В прошлом году AIN.UA писал о киевлянине Александре Коновалове, создавшем мессенджер Droid Translator с функцией голосового перевода иностранной речи в реальном времени. К сегодняшнему дню стартап Александра уже выпустила версию Droid Translator для Android, версия для iOS проходит модерацию в Apple. А сам изобретатель прислал в редакцию статью о недостатках сервиса Google Voice и о том, как корпорация может их исправить.

Все, кто когда-нибудь сталкивался с функцией распознавания речи в Android, знают, что там используется функция Google Voice. Чтобы научиться пользоваться данной функцией, нужно пройти чуть ли не целые курсы — подстраиваться, когда нужно говорить; смотреть, когда ляжет микрофон; нажимать кнопку только после того, как обдумал фразу. А если что-то не так нажал, задумавшись, что сказать — микрофон отключается через пару секунд.

Особенно наглядно это выглядит в режиме разговора в Google Translate. Сам лично не раз пытался за границей попробовать с его помощью пообщаться с немцами. Нажимаешь кнопку «немецкий», даешь телефон немцу, он шарахается, пока додумывается что-то сказать — микрофон отключается.

Уверен, что подобные впечатления остались у всех пользователей такого и аналогичных ему сервисов. При всей сложности технологии распознавания речи его реализация, с точки зрения потребительских свойств продукта, оставляет желать лучшего… Но не все так критично, и выход, конечно, как всегда есть, причем он достаточно прост. О чем и пойдет речь в этой статье.

Мы — команда авторов и разработчиков приложения DROTR (Droid Translator) — обратились к компании Google с просьбой добавить возможность распознавания аудиоданных в виде набора байт через HTTP-интерфейс в сервисе Google Voice.

Вопрос — зачем?

Ответ таков: чтобы избавить пользователя от необходимости перед каждой фразой нажимать кнопку микрофона и чтобы распознаватель речи мог распознавать все услышанное. На первый взгляд, это кажется простым, но на самом деле — не очень.

В прошлом году мы создали приложение Droid Translator — синхронный робот-переводчик звонков — которое дает возможность людям общаться между собой во всех странах мира на 29 языках. Сервис сейчас доступен для Android, под iOS продукт проходит модерацию в Apple. После запуска первой версии мы изучали отзывы клиентов, тестировали продукт и, конечно же, дорабатывали его.

Мы понимали, что каждый продукт должен быть интуитивно понятным и простым в пользовании. Для разработки iOS-версии мы вообще не смогли использовать Google Voice, поскольку последний умеет распознавать только поток и только на Android, и мы были вынуждены прикручивать Nuance с абсолютно дикой ценовой политикой — платой 1 цент за каждую фразу (как синтеза так и распознавания).

Мягко говоря, это оказалось не только некомфортно, так как Nuance имеет абсолютно недоразвитую службу поддержки, отвечающую на письма около месяца, но еще и крайне дорого и неудобно для формирования четкой и понятной ценовой политики для наших клиентов. Как это — платить за фразы?! Не за минуты, а за фразы. Но Nuance по количеству языков — мировые монополисты, а в это время Google Voice с небольшими техническими ограничениями, которые создали сами для себя, выпали из этого рынка.

Касательно Android, соответственно, тоже не все так гладко. Поскольку Google Voice распознает только поток, во время его включения он забирает микрофон, и мы, как следствие, уже не можем передавать оригинал речи собеседнику, так как микрофон занят распознавателем. На первый взгляд, кажется глупым, но это факт.

На сегодняшний день основным и главным ограничивающим фактором является отсутствие более низкоуровневого, гибкого, кроссплатформенного интерфейса взаимодействия с сервисами Google Voice, например, HTTP-интерфейсом, который бы позволял распознавать аудиоданные в виде набора байт, а не только потока, как это существует сейчас.

Из-за отсутствия возможности использования такого интерфейса мы столкнулись с тремя ограничениями:

невозможность использования сервисов Google Voice в iOS, а также в приложениях под другие платформы;
невозможность реализации работы распознавателя в режиме постоянной активности, то есть чтобы распознавалось все, что говорится, и пользователю не нужно было каждый раз активировать распознаватель перед тем, как сказать фразу;
невозможность использования сервисов Google Voice для дополнительной обработки передаваемых аудиоданных в VoIP-приложениях. При работе с сервисами Google Voice через Android SDK микрофон блокируется, и считывать с него данные для последующей передачи нет возможности, попросту, как я уже сказал — нельзя передать оригинал речи.

При этом техническая возможность взаимодействия с сервисами Google Voice через HTTP-интерфейс, позволяющий распознавать аудиоданные в виде набора байт, существует, однако она не является официально задокументированной. Официально сервис Google Voice доступен только через Android SDK.

Известно, что конкурент Google Voice, компания Nuance, предоставляет вышеописанный функционал, но ее тарифная политика не адаптирована под нужды компаний-разработчиков, клиентам которых данный сервис нужен для постоянного, а не разового использования.

В конечном итоге, отсутствие вышеописанного функционала в сервисах Google Voice ограничивает конкурентоспособность самого Google Voice, также как и потребительские ценности продуктов, созданные на его основе.

Мы уверены, что внедрение данной опции расширит рынок использования Google Voice, повысит конкурентоспособность сервиса и продуктов на его основе, даст новые возможности пользователям и разработчикам.

Учитывая вышеизложенное, мы обратились к Google с конкретным предложением — добавить возможность распознавания аудиоданных в виде набора байт через HTTP-интерфейс в сервисе Google Voice и официально задокументировать эту функцию.

Недавно Google пытался купить компанию Nuance за $6 млрд, однако владельцы последней отказались от такой сделки. В ответ Google решил строить свой новый центр речевых технологий. Наше предложение уже без строительства отдельного центра речевых технологий позволит очень существенно потеснить компанию Nuance на этом рынке, а Google Voice — стать универсальным кроссплатформенным решением уже сейчас.

Ответа от Google мы пока не получили. Будем держать вас в курсе событий и надеемся, что этот вопрос скоро решится взаимовыгодно, а все разработчики получат новые возможности работы с распознаванием речи.

# Android

# Google

# iOS

# Техно

Комментарии | 16

Andrii "Shlema" Degeler
19:19 4.06.14

Я правильно понимаю, что после анонса последовательного перевода речи в Skype этот стартап можно закрывать?

Войдите, чтобы ответить
- TIW
  11:30 6.06.14
  
  Как минимум странно так рассуждать. Я думаю что трудно привести пример хоть одной технологии, на которую бы была мировая монополия. Тот же Skype десять лет назад был уникален, но запуск тысячи его аналогов и конкурентов оставил лидера лидером. Конкуренция — двигатель прогресса и нельзя этого отрицать. Кроме того мы на несколько шагов впереди, анонсированная ими функциональность на конец года еще ничего не значит. Первую подобную демонстрацию они сделали еще в августе 2012 года, тем не менее первыми в мире функционал запустили мы. Считаю, что подтверждение таким гигантом как Skype такого направления функционала лишь подтвердило нашу правоту, т.к. до этого всякие «инвесторы» и «эксперты» сомневались вообще в необходимости и надобности функционала синхронного перевода звонков.
  
  Войдите, чтобы ответить
  - Andrii "Shlema" Degeler
    11:36 6.06.14
    
    Что-то мне подсказывает, что качество у Skype будет несколько выше. Кстати, я не совсем понял, какие именно модули у вас за что отвечают? То есть, что используется для распознавания речи, перевода и «озвучивания»?
    
    P.S. http://ru.wikipedia.org/wiki/%D0%A4%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB_(%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D1%8F) — вы какое из двух значений имели в виду?
    
    Войдите, чтобы ответить
    - TIW
      11:41 6.06.14
      
      время покажет где будет выше качество и это оценят пользователи. На сегодня мы просто работаем и делаем свое дело, смотрим в будущее с оптимизмом и всем советуем, т.к. сдаваться оно легче всего и скептически на все смотреть.
      
      Войдите, чтобы ответить
      - Andrii "Shlema" Degeler
        11:43 6.06.14
        
        1. Отвечать на вопрос вы отказываетесь?
        
        2. — MGIMO finished?
        — Ask!
      - TIW
        11:52 6.06.14
        
        Почему отказываюсь? Просто об этом везде написано, вот например http://uk.wikipedia.org/wiki/Droid_Translator
        Распознаватель и синтез Google, переводчик Bing. Для iOS там по-другому
      - Andrii "Shlema" Degeler
        11:57 6.06.14
        
        Понятно, спасибо.
        
        Надпись на картинке вы тоже через Bing переводили, надо полагать?
      - Andrii "Shlema" Degeler
        12:02 6.06.14
        
        К слову, про Bing в статье, на которую вы дали ссылку, нет ни слова.
      - TIW
        12:11 6.06.14
        
        Надеюсь в конечном итоге я все прояснил 🙂 Тема большая и если что лучше пообщаться через почту. Спасибо за вопросы.
rcknr
21:12 4.06.14

В Google не зрозуміють про шо мова, бо Google Voice — це сервіс інтернет-телефонії, а не розпізнавання мови.

Войдите, чтобы ответить
Vanuan
01:29 5.06.14

Вечно все путают Google Voice и Voice Recognition. И почему зациклились на HTTP-интерфейсе? Любой API подошёл бы.

Войдите, чтобы ответить
- TIW
  11:31 6.06.14
  
  Почему HTTP интерфейс мы пояснили в статье — API это совсем другая история. По API дается возможность активировать распознаватель только по нажатию кнопки, при этом распознаватель гаснет после 3-5 секунд тишины. Много моментов, в статье все подробно описано.
  
  Войдите, чтобы ответить
  - Vanuan
    00:13 10.06.14
    
    API, которое позволяет распознать кусок записи, совсем необязательно должно быть реализовано по HTTP.
    
    Войдите, чтобы ответить
    - TIW
      00:22 10.06.14
      
      Верно, однако удобство для пользователя?! В iOS какие там чудеса надо вытворять вользователю, вызывать браузер, клавиатуру и т.п.- это нереальные неудобства. В Андроиде что имеете ввиду из задокументированных функций? Если в курсе вопроса, готовы обсудить-пишите, пожалуйста, на почту [email protected]
      
      Войдите, чтобы ответить
      - Vanuan
        01:03 10.06.14
        
        Я не знаю не больше вашего. Пятиминутный поиск в google выдал это: http://stackoverflow.com/questions/6316937/how-can-i-use-speech-recognition-without-the-annoying-dialog-in-android-phones
        И вот это: https://www.youtube.com/watch?v=A_irIFVI1x0
Vanuan
00:59 10.06.14

Думаю, не за горами тот день, когда распознавать речь можно будет оффлайн. А платными будут лишь речевые базы.

Войдите, чтобы ответить