Коллектив ученых из Дании и Швеции провел масштабное исследование, чтобы показать, как легко деанимизировать мобильных пользователей. В течение 12 месяцев они собирали данные 3,5 млн владельцев Android-смартфонов. Затем, благодаря анализу поведенческой активности в приложениях, находили связь между паттернами использования программ и реальными личностями. В итоге, для успешной деанонимизации с вероятностью в 91,2% понадобились сведения о четырех программах. Пять приложений обеспечивают идентификацию с вероятностью в 96%. 

В тексте отмечается важность сбора информации — датасеты помогают создавать более удобные продукты и подстраивать их под нужды пользователей. Однако возникают неизбежные опасения по части приватности. Пользовательские данные активно собираются компаниями-брокерами, дополняются информацией, а затем перепродаются за большую стоимость.

Чтобы соответствовать, например, американскому законодательству, информацией торгуют в анонимизированном виде. В числе сведений не должно быть имени, адреса, электронной почты или другого прямого идентификатора. Новое исследование показывает, что это лишь видимость защиты. Информация об использовании приложений, о сборе которой чаще всего даже не знают, может послужить не худшим маркером.

В датасете, который использовали ученые, были сведения о 3,5 млн людей, которые на протяжение 12 месяцев запустили свыше 1,1 млн уникальных программ. Из списка исключили предустановленный софт. Собранные профили авторы исследования назвали «отпечатками приложений». По ним можно узнать возраст, пол, отношения, образование, политические и религиозные взгляды, сексуальную ориентацию.

Поначалу ученые учитывали лишь факт запуска приложений и формировали уникальный набор для каждого пользователя. Потом эту информацию дополнили сведениями о популярности приложений. Не все их них используются миллиардами пользователей — есть множество программ с незначительным количеством установок. Получив эти данные из Google Play или купив у сторонних вендоров, точность идентификации и достигает критических значений. Если только по списку из 4 программ можно найти 21,8% пользователей, то с помощью расширенной статистики точность возрастает до заявленных 91,2%.

Идентификация опасна при перекрестном сравнении — корпорации или хакеры могут связывать между собой несколько баз данных, формируя более полный портрет пользователя. Ученые также обнаружили сезонную динамику в формировании «отпечатков приложений». Летом их использование более эффективно, поскольку растет популярности приложений для отдыха. При этом, традиционные методы анонимизации — увеличение объема датасета, в данном случае не работают. При увеличении выборки на 250%, с 1 до 3,5 млн пользователей, эффективность идентификации упала всего на 4%. Даже если увеличить базу до 35 млн, метод даст до 80% правильных результатов.

По мнению составителей исследования, паттерны использования приложений должны считать личной информацией и находиться под законодательной защитой. Это ценная для рекламодателей информация: даже при смене устройства пользователи не меняют своих привычек.

Напомним, ранее на AIN.UA выходил материал о том, как Mastercard заподозрили в сделке по продаже информации в пользу Google.