Как ИИ меняет сервисы и помогает людям с ограниченными возможностями — репортаж из офиса Google

2780

В 2017 году CEO Google Сундар Пичаи заявил, что отныне искусственный интеллект — первоочередное направление, а сама компания будет развиваться по принципу AI First. На первый план вышли алгоритмы, машинное обучение и умение предоставлять контекстуальную информацию. Теперь это — главная сила бизнеса. 

Но с большой силой приходит большая ответственность. В июне 2018 года стало известно об участии Google в военном проекте Пентагона под названием Maven. Это был подряд на обработку данных, снятых военными американскими дронами, который Google планировала продлить на новый срок.

Сотрудники по всему миру выступили с масштабными протестами, из-за чего компания отказалась от дальнейшего сотрудничества с военными. И следом выпустила набор этических принципов для ИИ – кодекс, который должен сдерживать от неправильного использования технологий. Главный его посыл: сделать искусственный интеллект не инструментом слежки, а возможностью улучшить и дополнить жизнь пользователя.

7 принципов этики ИИ:

  1. Нести социальную пользу;
  2. Избегать дискриминации;
  3. Обеспечивать безопасность;
  4. Оставаться подотчетной человеку;
  5. Внедрять принципы приватности;
  6. Поддерживать высокие научные стандарты;
  7. Представлять ИИ-технологии только тем, кто придерживается этих принципов.

Журналист AIN.UA побывал в европейском офисе Google в швейцарском Цюрихе и узнал, как ИИ меняет продукты и сервисы Google. А также увидел, как технологии облегчают жизнь людей с ограниченными возможностями и ставят перед инженерами новые этические и технические дилеммы.

Швейцарское подразделение Google — крупнейший центр разработки компании за пределами США, здесь работают около 4000 человек. Среди продуктов, над которыми трудятся команды этого подразделения: Google SearchGoogle Assistant, Google Calendar, Gmail, YouTube и многое другое.

Как работает Google Translate — и примет ли он новую украинскую грамматику

Вплоть до 2016 года работу Google Translate координировал огромный свод правил и конструкций, а данные собирались вручную. Перевод совершался «от слова к слову» и «от фразы к фразе», объясняет Макдафф Хеджес, инжниринг-директор команды Google Translate. 

Затем принцип работы сервиса изменился — за него отвечает нейронная сеть, которая обучается самостоятельно. Для набора данных поисковые боты индексируют контент в сети. Но это не обычный поиск. Google ищет две версии текста: на языке оригинала и переведенные версии.

Макдафф Хеджес, инжниринг-директор команды Google Translate. Здесь и далее фото: Google

Боты автоматически находят между ними соответствия и, обнаружив нужные паттерны, обрабатывают страницы для наполнения словаря. В оборот попадают все достоверные источники. Особенно отмечают правительственные сайты, которые часто публикуют документы на двух и более языках (это, например, распространено в Европе). Но контент могут брать и из новостных изданий, которые выходят на двух языках.

Чем больше материла доступно поисковой системе — тем лучшим будет перевод. Сейчас лидером по качеству перевода в Google признают пару «испанский — английский». Выбор неслучаен: языки достаточно похожи, с испанского на английский переписали множество качественных и верифицированных текстов, а сам английский удобнее других из-за своей структуры.

Чтобы Google Translate лучше переводил на украинский, в сети должно появляться больше украинского контента, который Google сможет сопоставить с другими языками, объясняет Хеджес. 

Но предупреждает — не стоит верить громким новостным заголовкам о том, что «уровень машинного перевода сравнялся с ручным». Даже алгоритмы Google далеки от идеала, а такие сенсационные заголовки возникают из-за несовершенных научных методов. 

Стандартный метод оценки машинного перевода — а эта сфера существует с середины XX века — устарел. Согласно нему, для исследования берут десятки вырванных из контекста предложений.

Часть переводят машины, часть — специально нанятые подрядчики. Результаты смешивают и отправляют респондентам. Те ставят галочки/крестики напротив предложений — и так формируется оценка качества перевода. В таком соревновании Google Translate может показать себя на высоком уровне. Но даже в самой компании признают, что оценка эта будет нерепрезентативной. 

Мы пока далеки от идеального перевода или того, чтобы позволить двум людям «на лету» общаться на разных языках.

Макдафф Хеджес

Еще один вопрос, который тревожит инженеров, это масштабные языковые изменения. Например, появление в официальной грамматике феминитивов, вычеркивание определенных частиц, окончаний, смена правописания слов.

Как говорит Хеджес, чтобы обучить этим правилам алгоритмы Google Translate, специально выделенная команда должна потратить 1-2 недели — и ей не помешает помощь местных лингвистов или качественные словарные данные. Но поскольку приоритизировать такие проекты сложно, то зачастую изменения проникают в систему стандартным путем, через появление в сети.

Как ИИ от Google помогает людям с ограниченными возможностями

Одним из спикеров стал математик Дмитрий Каневский. Он — научный исследователь Google, занятый в проектах по распознаванию речи. В возрасте одного года Дмитрий лишился слуха, а потому его речь сильно отличается от стандартной (в компании используют термин non-standart speech).

Раньше к его произношению было сложно адаптироваться как людям, так и машинам. Умная станция Google Home, помощник Google Assistant и другие продукты не понимали его запросов. Ситуацию изменил ИИ.

Сотрудники Google натренировали нейронную сеть по материалам, которые в течение 25 часов записывал Дмитрий. Он произносил привычные фразы, читал тексты, а нейросеть адаптировалась к его особенностям произношения.

В итоге получился проект Euphonia: система быстрого перевода нестандартной речи в текст. Теперь Дмитрий может общаться и выступать с лекциями: он говорит со смартфоном в руках, который показывает на экране бегущую строку.

Пока это работает только с английским языком. Обработка данных проходит на устройстве — интернет-подключение не требуется. 

Как рассказывает сам Каневский, создание проекта Euphonia, помимо ключевой цели, дало побочные результаты. Во время записи обучающих материалов, он улучшил качество своей речи — наблюдая за тем, как его слова распознает алгоритм.

Но главный сюрприз оказался в другом: собеседникам Каневского достаточно всего несколько минут послушать его, одновременно читая «субтитры», чтобы понимать речь даже без подсказок. Человеческий мозг обучается качественнее и быстрее нейросетей.

Проект Parratron — другая интерпретация той же идеи. Это система для перевода нестандартной речи в более привычный человеческом слуху вариант. Такая разработка помогает Каневскому взаимодействовать с инструментами вроде Assisntant. Кроме того, это подспорье для улучшенного распознавания акцентов и других языковых особенностей, которые сегодня вгоняют в ступор голосовых ассистентов.

Но пока что у Euphonia и Parratron есть два существенных, хотя и закономерных, ограничения. Оба созданы на основе персонализированного обучения по материалам Дмитрия Каневского. Его речь и особенности — уникальны, а полученные паттерны не будут так же подходить другому человеку.

Поэтому конечные цели проектов: создать общедоступную платформу для людей с ограниченными возможностями, где они смогут записать собственные образцы данных и натренировать по ним нейросеть, которая следом «поселится» на их устройстве. И не обязательно будет заниматься этим 25 часов — пользу принесут и пара сотен самых используемых слов.

Раньше я не мог даже поговорить со своими внуками. Теперь — способен выступать с лекциями в Париже, перед аудиторией своих друзей-математиков.

Дмитрий Каневский

А вот что уже доступно, так это система Live Caption: возможность запустить автоматически сгенерированные субтитры для любого видео на Android-устройстве. Инструмент поддерживает 7 языков, но работает не на устройстве, а на серверной стороне. С ним люди, лишенные слуха, могут потреблять контент, не снабженный субтитрами — а таких видео в интернете большинство. 

Публично доступно и приложение Lookout для помощи незрячим. Программа получает доступ к камере, называет объекты, на которые направлен смартфон и их положение. Команды звучат так: «Человек на 12 часов», «Собака на 2 часа». Lookout автоматически приоритизирует объекты и говорит о тех, что имеют первоочередную важность. Но поскольку вычисления проводятся на устройстве, Lookut пока работает только с Pixel. 

Как ИИ переселился из облака в смартфон

Долгое время облачные технологии были единственным способом массово применять искусственный интеллект — модели были слишком большими, чтобы хранить и запускать их локально. Но оптимизировав алгоритмы производители стали переносить ИИ и технологии машинного обучения на устройства. 

Так поступили и в Google. И добились того, чтобы переводчик эффективно работал на устройстве, а не только при подключении к сети. А клавиатура Gboard лучше исправляла ошибки и подсказывала эмодзи. Но однажды загрузить модель и постоянно ею пользоваться — значит отказаться от прогресса.

Подход, при котором обработка происходит на устройстве, но у производителя есть возможность использовать данные для обучения, не раскрывая персональной информации, называется Federated Learning. Работает это так: модель работает на множестве устройств независимо, а на сервер отправляются лишь малые пакеты агрегированных данных в зашифрованном виде. Они используются для обучения модели. На такую схему в Google и делают большую ставку. 

Как работает принцип Federated Learning

Но это не все нюансы. Ряд разработок в области ИИ Google пока оставляет эксклюзивом серии устройств Pixel. Например, «Диктофон» в Pixel 4 может делать автоматическую транскрипцию записи (на английском). Скачать то же приложение на свой Android-смартфон не получится.

В Google объяснили, что дело в глубокой оптимизации — команда не один год добивалась нужной скорости обработки данных, обеспечить которую мог только Pixel.

Дело якобы не в процессоре или других компонентах, а в совокупном техническом дизайне устройства, объясняет Француаза Бофай, ведущий ученый команды Federated Learning.

Француаза Бофай

Другие смартфоны выполняли операции медленнее — и потому пока не получат этой функции. В чем конкретно топовые устройства от Samsung или OnePlus уступают Google-смартфону, журналисту AIN.UA не рассказали.

С Pixel связана и другой вопрос на стыке железа с ИИ. В новом Pixel 4 установлен радар, способный распознавать жесты владельца и понимать, намерен ли человек взаимодействовать со смартфоном. Модуль называется Soli, а функция распознавания — Motion Sense.

Сейчас с его помощью можно управлять проигрыванием музыки взмахом руки. Также телефон автоматически включает экран и активирует сканирование лица, когда радар улавливает рядом движение. Но такой модуль вызывает закономерные опасения по части безопасности.

Поэтому в Google пошли по самому экстремальному пути. Потратив несколько лет на внутреннее тестирование, разработчики создали модель для перевода данных радара в жесты и команды, поместили модель на устройство и полностью изолировали ее. То есть, система не обучается в привычном смысле этого слова — она «законсервирована» на Pixel из соображений безопасности.

Компания не использует пользовательские данные. Единственный вариант: добровольный сбор логов, в которых будет указано лишь количество взаимодействий. Так в Google смогут понять, пользуется ли спросом та или иная функция рада и определить приоритеты.

Не имеют доступа к Soli и сторонние разработчики. У них нет API, чтобы добавить управление жестами в свои приложения. На вопрос о том, получат ли разработчики такие инструменты, инженеры Google пожали плечами. Зато намекнули, что сама Google планирует перенести радар на другие устройства. Речь идет о домашних аксессуарах: сейчас у Google есть умные колонки, дисплеи, термостаты.

Ждать ли Google Assistant на украинском языке

Оливье Бускет, глава Google AI Europe, прямо не ответил на вопрос о том, когда Google запустит поддержку украинского языка для умного помощника Assistant. Сейчас украинский — один из немногих крупных европейских языков, которые не поддерживает помощник.

Оливьер Бускет

По словам Бускета, в Google понимают и переживают по поводу того, что их продукты задерживаются на определенных рынках. Но ресурсы компании не бесконечны — кроме того, в отдельных регионах могут быть регуляторные или технические проблемы.

Главное препятствие, по его словам, обычно заключается в количестве и качестве данных, которые нужны для адаптации голосовых команд. Украинцам пока остается ждать, компания не может предоставить никаких сроков.

Оставить комментарий

Комментарии | 0

Поиск