Эпсилоны!
Исследователи из университетов Южной Калифорнии, Индианы и Цинхуа изучили код macOS и iOS чтобы понять, как применяется дифференциальная приватность на практике. Они проследили за тем, как софт добавляет случайный «шум» в личную информацию — от истории браузера до использования эмодзи, от данных HealthKit до поисковых запросов — перед тем, как все отправляется на сервера Apple.
В идеале процедура помогает обезопасить персональную информацию от хакеров, требований государственных агентств и даже посягательств собственных сотрудников. Но эффективность дифференциальной безопасности зависит от переменной, известной как эпсилон — она определяет, сколько информации скрывается ради сохранения конфиденциальности.
Разбирая софт Apple в попытках определить эпсилон, исследователи пришли к выводу, что macOS выгружает на сервера значительно больше данных, чем положено для статуса «безопасной» системы. У iOS 10 показатели еще выше. Однако главная проблема в том, что Apple держит в секрете исходные коды и значения эпсилона. Это позволяет компании скрытно их корректировать.
В ответ на исследование, Apple указала на то, что сбор данных предоставляется исключительно на выбор пользователя — при первой загрузке появляется окно с предложением отправлять статистику пользования. Кроме того, оспариванию подверглись и другие части исследования, вроде пункта о том, насколько точно компания способна «соединить» данные с конкретным пользователем. Но авторы работы остались непреклонны — Apple преувеличивает статус дифференциальной приватности.
Перевести их претензии на обыденный язык помогает Фрэнк МакШерри, один из основателей дифференциальной приватности и бывший сотрудник Microsoft: «Apple будто надела на себя наручники при взаимодействии с вашими данными. Правда, оказывается, что они сделаны из бумаги».
Неуверенная гарантия на безопасность
На то, чтобы определить конкретные параметры, которые Apple использует для предотвращения детального анализа данных, у исследователей ушло шесть месяцев. Они изучили код macOS и iOS 10 чтобы отследить все, что системы отправляют на сервера. Они «разбирали» код на части с помощью программы Hopper и следили за его исполнением.
На основе этих наблюдений, команда вывела следующие данные: у macOS значение эпсилона — 6, а у iOS 10 — 14. С увеличением этого показателя показателя растут и шансы выследить конкретного пользователя по дата-сету.
При этом академическое сообщество вообще рассматривает любые значения выше одного как серьезную угрозу конфиденциальности. И поскольку iOS и macOS отправляют данные на сервера раз в день, с каждой загрузкой риски растут. Еще более экстремальная ситуация с бета-версиями: для тестовой сборки iOS 11 значение эпсилона составляло 43. Правда, релизный вариант наверняка сбавит аппетиты.
Чтобы лучше объяснить значение этих чисел, Фрэнк МакШерри предлагает простой пример. Представим, кто-то разрешил смартфону отправлять данные из медицинского приложения. Согласно им совокупность его физических показателей повторяется раз на миллион. При ежедневных отправках с эпсилоном 14 и внедрением случайных данных, уже после первого получения данных Apple сможет с 50% идентифицировать конкретного человека. После двух дней вероятность правильного ответа возрастет почти до 100%.
Apple не спешит признавать такое положение. Компания говорит, что исследователи проигнорировали разные «типы» информационного шума и ошибочно свели вместе значение эпсилона. Кроме того, ее представители отвергли использование корреляций между данными для идентификации пользователей и настояли, что строгую процедуру фильтрации данных не проходят IP-адреса и схожая информация, которую можно использовать в качестве уникальных идентификаторов.
Нынешние и будущие угрозы
Основные претензии в адрес концепции дифференциальной приватности просты — это просто неудачная для пользователя система. Она лишь ограничивает, какие данные кампания будет ограничивать в первую очередь и позволяет ей без ведома пользователей менять условия работы с информацией.
Аргумент насчет того, что Apple не сопоставляет разные типы данных для выведения общей картины тоже неубедителен. Если она этим не занимается, однажды это может сделать кто-то другой. Хотя правильная реализация дифференциальной приватности подразумевает защиту даже от еще несуществующих способов обнаружения корреляций.
При этом МакШерри указывает, что компанию не стоит слишком строго судить. Она достаточно вложилась в другие технологии защиты данных, активировав полное шифрование диска на iPhone и оконечное шифрование при использовании iMessage и FaceTime. Apple входит в небольшой круг компаний Долины, которые хотя бы начинают задаваться вопросами конфиденциальности.
Для сравнения, у дифференциальной приватности есть еще один поклонник — корпорация Google. Ее браузер Chrome оборудован системой сбора данных RAPPOR. По результатам внутреннего исследования, при отправке одного пакета информации эпсилон не превышает двух. На длинной дистанции потолковые значения — 8 или 9. В теории это лучше, чем отчетность по научному расследованию деятельности Apple. Кроме того, исходный код RAPPOR находится в свободном доступе, что позволяет следить за изменениями эпсилона.
И в то же время другие компании, вроде Facebook и Microsoft, не делают никаких публичных шагов в этом направлении. Пусть даже именно сотрудник Microsoft изобрел дифференциальную приватность.
В подходе Apple исследователей больше всего беспокоит секретность. На определение эпсилонов ушло шесть месяцев, хотя компания могла просто опубликовать их. Пока что она лишь предлагает поверить на слово, не предоставляя никаких сведений. Но возможно, такие глубокие исследования заставят технологическую индустрию вести более честный диалог в отношении конфиденциальности.
А пока, если защита данных от Apple не внушает вам доверия, вы всегда можете прекратить делиться информацией.