С расцветом машинного обучения инженеры часто упоминают о созданном ими искусственном интеллекте как о системе «черного ящика». Как только движок машинного обучения закончил полный курс тренировки — от коллекции примеров данных до распознавания лиц и обнаружения вредоносных программ — он может принимать запросы вроде «Чье это лицо?» и «Безопасно ли это приложение?». Он выдает ответы, но никто в мире, включая его создателей, до конца не понимает механизм принятия решений внутри такого ящика.
Однако исследователи все чаще доказывают, что непостижимость работы самообучающегося искусственного интеллекта не делает секретом сам механизм. На самом деле, ученые обнаружили, что внутренности таких черных ящиков поддаются обратной разработке и даже полному воссозданию – похищению, как назвала это одна из исследовательских групп. Украсть ИИ можно, используя те же методы, при помощи которых они были созданы.
Подробный механизм реверс-инжиниринга (обратной разработки, воссоздания) самообучающегося ИИ опубликовали в статье, вышедшей в начале сентября под названием «Кража моделей машинного обучения через спрогнозированный API». Авторами выступили ученые из Технической школы Корнелльского университета, Швейцарского политехнического института в Лозанне и Университета Северной Каролины.
Согласно их исследованию, воссоздать ИИ, который базируется на тренировках машинным обучением, можно всего лишь отсылая запросы и анализируя ответы. Тренируя собственный ИИ с заданными целевыми параметрами, они обнаружили, что могут производить программное обеспечение, которое в состоянии предсказать ответы клонированного ими ИИ почти с 100% точностью. Иногда для этого достаточно всего лишь нескольких тысяч или даже сотен запросов.
«Вы берете черный ящик и через этот очень узкий интерфейс можете реконструировать его начинку, провести его реверс-инжиниринг. В некоторых случаях вы действительно можете провести идеальную реконструкцию», – говорит профессор Корнельской технической школы Ари Джулс, который работал над проектом.
Как «получить» начинку черного ящика
Замеченную учеными хитрость можно применять к услугам, предлагаемым компаниями Amazon, Google, Microsoft и BigML, которые позволяют пользователям загружать данные в систему машинного обучения и публиковать их или делиться полученной моделью в интернете, в некоторых случаях – с оплатой за запрос.
Метод исследователей, названный ими «extraction attack» («извлекающая атака»), может продублировать чей-то запатентованный механизм ИИ или, в некоторых случаях, воссоздать чувствительные личные данные, которые использовали для обучения ИИ. «Восстановив такую модель для себя, вы за нее не заплатите, а также можете серьезно нарушить конфиденциальность», – говорит Флориан Трамер, исследователь EPFL, который работал над проектом «похищения ИИ», прежде чем перейти в Стэнфорд.
С другой стороны, метод дает возможность хакерам провести обратное проектирование, а затем разрушить системы безопасности, основанные на машинном обучении и предназначенные для фильтрации спама и вредоносных программ. «После нескольких часов работы вы добыли бы модель, которую смогли бы обойти, если бы она была использована в производственной системе», – предупреждает Трамер.
Для воссоздания программного движка машинного обучения используется, собственно, само же машинное обучение. Возьмем простой пример: спам-фильтр, натренированный при помощи машинного обучения, может принимать решение по поводу того, спам или не спам конкретный мейл. При этом применяется «оценка уверенности», показывающая вероятность того, что решение правильно. Этот ответ можно интерпретировать как точку по одну сторону от границы. Эта точка представляет собой отправной пункт принятия решения искусственным интеллектом, а «оценка уверенности» – показывает ее удаленность от этой границы. Повторяющиеся попытки тестирования мейлов против этого фильтра показывают точную линию, определяющую эту границу. Метод можно масштабировать до гораздо более сложных, многомерных моделей, которые дают точные ответы, а не просто «да-или-нет». При этом ученые утверждают, что прием работает даже если цели движка машинного обучения не предусматривают «оценку уверенности». Правда, в таком случае требуется в десятки или в сотни раз больше запросов.
Похищая предсказателя любви к стейкам
Ученые протестировали свою атаку на платформе машинного обучения Amazon и онлайн-сервисе машинного обучения BigML. Они пытались воссоздать построенные на этих платформах модели ИИ из серии общих наборов данных.
На платформе Amazon они хотели украсть два алгоритма. Один – предсказывающий зарплату человека на основе демографических факторов – занятости, семейного положения и кредитного балла. Другой – распознающий написанные от руки цифры от 1 до 10. В первом случае ученые установили, что могут воспроизвести модель без каких-либо заметных различий после 1485 запросов, а на воссоздание ИИ по распознаванию понадобилось всего 650 запросов.
С BigML оказалось немного сложнее. Ученые применяли свою технику извлечения на алгоритме, который предсказывает кредитные рейтинги немецких граждан на основе их демографии; а также на алгоритме, угадывающем степень прожаренности стейка, который любит человек, на основе ответов на другие вопросы об образе жизни. В первом случае потребовалось всего 1 150 запросов, а на копирование предсказателя стейков – чуть более.
Не каждый алгоритм машинного обучения так легко поддается реконструкции, говорит ученый из Пенсильванского университета Николас Пейпернот, который работал над другим похожим проектом. Примеры выше касались сравнительно простых движков машинного обучения. Более сложные варианты потребуют большего количества вычислений для атаки. Особенно если ИИ научатся скрывать свою «оценку уверенности». «Однако исследование ученых хорошо тем, что показывает: нынешние модели машинного обучения достаточно неглубоки, чтобы их можно было извлечь», – отмечает Пейпернот.
От распознавания лиц до их реконструкции
Помимо простой кражи ИИ, исследователи предупреждают, что их атака также делает более простым воссоздание конфиденциальных данных, использованных для его обучения. В другой статье, опубликованной в конце прошлого года, они указали: воссоздать узнающий лица ИИ можно угадывая их.
Этот метод заключается в посылке ИИ сигналов из повторяющихся тестовых картинок и их улучшении, пока они не совпадут с рисунками, по которым тренировали его самообучающийся движок. В итоге, воспроизводятся фактические изображения настоящих лиц – хотя компьютер никогда их «не видел».
При первом выполнении атаки перед запуском реконструкции лиц, ученые показали, что могут собирать изображения лиц гораздо быстрее, используя украденную копию ИИ, работающую на подконтрольном им компьютере. Так они реконструировали 40 различных лиц всего за 10 часов, в то время как на реконструкцию лиц на оригинальном движке ИИ им понадобилось 16 часов.
Понятие реверс-инжиниринга движков машинного обучения продвигается среди исследователей ИИ в течение нескольких месяцев. В феврале другая группа исследователей смогла воспроизвести систему машинного обучения с 80% точностью (группа EPLF и Корнелльского университета получила точность в 100%). И даже при таких результатах ученые обнаружили, что тестируя входы реконструированной ими модели, они могут узнать, как обмануть оригинал.
Когда они применили эту технику к движку ИИ, наученному распознавать номера и дорожные знаки, то установили, что могут заставить его сделать неправильное суждение в 84-96% случаев.
Последние исследования по реконструкции движков машинного обучения делают обман еще проще. И если этот самообучающийся ИИ применяется в безопасности или в критически важных задачах, как самостоятельное вождение автомобилей или фильтрация вредоносных программ, то возможность похищать их и анализировать может иметь серьезные последствия. Черный ящик ваш ИИ или нет, подумайте над тем, чтобы скрыть его от посторонних глаз.
Автор: Энди Гринберг, журналист, специализирующийся на безопасности, неприкосновенности частной жизни, свободе информации и хакерской культуре.
Источник: Wired