Бурный прогресс алгоритмов искусственного интеллекта все чаще приводит к тому, что нарушается приватность пользователей в реальном мире. Связано это с растущей эффективностью систем распознавания лиц. Их могут использовать в относительно безобидных маркетинговых целях корпорации (например, когда соцсети собирают ваши фотографии в рамках очередного флэшмоба «покажите, как вы выглядели в 18 лет / 10 лет назад и т. п.») и в репрессивных — власти, которые с помощью камер видеонаблюдения вычисляют участников уличных акций протеста. Ученые не первый год бьются над задачей противостояния нежелательному распознаванию лиц — но пока не смогли изобрести инструмент надежной защиты. Мы решили изучить, как устроены системы, которые все чаще несут в себе не благо, а угрозу, какие методы борьбы с ними известны — и почему ни один из этих методов не назовешь идеальным.
Чтобы понять, как бороться с системами распознавания лиц, нужно сперва разобраться с тем, как они работают
📸
Сначала системе необходимо заняться сбором изображений лиц. Ей нужно очень много фотографий высокого качества, пригодных для дальнейшей обработки. Их можно получить из самых разных источников. Это могут быть изображения в социальных сетях, разнообразные системы видеонаблюдения, фотографии из паспортов, водительских удостоверений и других документов в государственных базах данных.
🫥
На втором этапе происходит предварительная обработка исходных изображений. Необработанные снимки с первого этапа часто имеют плохую структуру (различный размер лиц, случайные люди в кадре). Чтобы упростить последующие задачи, система распознавания лиц предварительно обрабатывает изображения — удаляет фон, извлекает каждое отдельное лицо и занимается нормализацией. В итоге система получает набор хорошо структурированных изображений лиц.
🧮
Третий этап — обучение нейросети, извлекающей признаки лица. Она преобразует изображение лица в вектор признаков.
Вектор признаков — это числовое представление лица, которое отражает его уникальные характеристики в компактной форме. Визуальная информация (контуры глаз, носа, рта, форма лица, текстура кожи и так далее) преобразуется в высокоразмерное пространство признаков, где каждое измерение представляет определенную характеристику лица.
Для точного распознавания вычисленные векторы признаков должны быть очень похожи для фотографий одного и того же человека, но при этом достаточно сильно отличаться для фотографий разных людей. Для увеличения эффективности такая нейросеть обычно обучается на миллионах заранее распознанных (маркированных) изображений лиц. Векторы признаков в системах распознавания лиц обычно уникальны для каждой нейросети, которая их генерирует.
🏷️
Затем необходимо создать базу данных для сравнения. В этой базе данных содержится большая коллекция изображений отдельных лиц и соответствующие им векторы признаков. Системам распознавания такая база маркированных лиц нужна, чтобы сопоставлять с ними неизвестные (немаркированные) лица. Кроме того, там обычно содержатся персональные данные людей — особенно если для сбора изображений использовались соцсети или государственные информационные системы. То есть кроме изображений лиц и векторов признаков, в таких базах могут оказаться имена и фамилии, дни рождения, номера телефонов, адреса электронной почты, физические адреса и прочая подобная информация.
🆔
Пятый этап — собственно распознавание лиц. В реальном времени система получает немаркированное изображение лица, извлекает его вектор признаков, затем использует этот вектор для запроса в базу данных, чтобы сравнить с другими векторами и попытаться найти соответствие. Если вектор из запроса оказывается достаточно похожим на какой-нибудь вектор из базы данных, то система объявляет искомое лицо распознанным. После идентификации изображения из запросов часто пополняют базу данных для сравнения. Если лицо было распознано, то изображение будет использовано для улучшения существующих векторов признаков конкретного человека. Если не было распознано, то в базе данных для сравнения создадут новый профиль с изображением неизвестного и вектором признаков его лица.
Теперь — о том, как можно бороться с распознаванием лиц (на любом из этапов, описанных в первой главе)
Исследователи из Чикагского университета в конце 2021 года систематизировали существовавшие на тот момент технологии борьбы с системами массового распознавания лиц. Они объяснили, что в теории вмешаться в работу систем можно на каждом из пяти описанных выше этапов.
😶🌫️
Контроль соцсетей и борьба с видеокамерами
На первом этапе можно попытаться помешать системе собрать исходные изображения. Например, для борьбы со сбором фотографий из социальных сетей их владельцы могут вводить технические ограничения на выкачивание данных, а пользователи — перестать выкладывать новые снимки в общий доступ. А бороться с системами видеонаблюдения можно, избегая видеокамер или нарушая их работу. Во втором случае речь не только о физическом разрушении камер, но и их засветке лазером или заматывании объектива плотной тканью.
Естественно, ничего подобного нельзя рекомендовать — любое воздействие на технику может оказаться поводом для возбуждения уголовного дела (например, по статье 214 УК РФ «Вандализм»). Избежать объективов тоже будет трудно: в России не предполагается публичного перечня видеокамер для идентификации лиц. Их расположение будет согласовываться с местными управлениями МВД и ФСБ — а у соответствующих документов будет гриф «для служебного пользования». Поэтому построить маршрут, который бы наверняка миновал точки сбора информации для систем распознавания лиц, едва ли получится.
😷
Маски и футболки
На втором этапе можно помешать системе справиться с предварительной обработкой снимка. Здесь два основных направления — предотвращение обнаружения лица и его анонимизация.
Для предотвращения обнаружения видеокамерами можно надеть специальные футболки, которые должны сбивать с толку нейросеть. В уже готовые снимки можно вносить помехи, которые также будут мешать алгоритмам компьютерного зрения правильно классифицировать объекты.
- Ученые из Университета имени Бен-Гуриона изобрели полупрозрачную наклейку на объектив видеокамеры, которая вводит в заблуждение детекторы объектов. Специально разработанный рисунок может помочь скрыть от нейросетей часть объектов определенного класса, сохранив возможность распознавать остальные. Разработчики этого метода добились того, что Tesla Model X игнорировала 42% дорожных знаков «Стоп». Их коллеги считают, что подобные наклейки можно использовать и для сокрытия лиц от систем видеонаблюдения. Если такую наклейку можно было бы установить на камере в вашем подъезде, то она бы добросовестно снимала всех входящих — но нейросеть из такой съемки не смогла бы вычленить половину лиц.
Для анонимизации в реальной жизни можно надеть маску, шляпу, использовать макияж. В случае с готовыми фотографиями с помощью генеративных нейросетей можно модифицировать лица реальных людей, сильно изменять вектор признаков и реконструировать на его основе лицо.
- Исследователи из Чжэцзянского университета создали прототип телефонной камеры, которая сразу снимает анонимизированные фотографии. Это достигается не модификацией аппаратного обеспечения, а лишь работой с параметрами встроенных функций обработки изображений в камере (матрицы коррекции цвета и гамма-коррекции). Точность идентификации лиц на полученных снимках снижается до 0,3%. В теории такие снимки можно сразу выкладывать в интернет, не обрабатывая с помощью других программ для анонимизации изображенных лиц.
🤢
«Отравление» нейросети
Когда нейросеть учится извлекать вектор признаков лиц, можно подсунуть ей «отравленные» данные. Испорченные исходные данные могут привести как к частичному, так и полному сбою нейросети.
- Можно просто подмешивать системе изображения, на которых она ничему не сможет научиться, но их потребуется очень много.
- Более эффективный путь — добавление в датасет снимков с «обходными путями» для искусственного интеллекта. Они заставляют модель переобучиться, обращая в первую очередь внимание на специально сконструированные ложные признаки и отбрасывая по-настоящему значимые. В итоге переобученная нейросеть не сможет извлекать качественные векторы признаков, необходимые для точного распознания лиц.
🤬
«Замусоривание» поисковой выдачи
На четвертом этапе можно попытаться испортить базу данных с образцовыми снимками и векторами признаков, используемых для распознания немаркированных изображений. Испорченная база данных будет вроде бы успешно распознавать новые снимки. Но вместо искомого человека она выдаст информацию совсем о другом лице и покажет чужие фото. Чтобы так «замусорить» базу, собираемую из соцсетей, можно выкладывать специальным образом обработанные фотографии.
- Две программы — Fawkes от ученых из Чикагского университета и LowKey от исследователей из Университета Мэриленда и Военно-морской академии США — созданы для изменения отдельных пикселей на фотографии перед публикацией в интернете. Эти изменения искажают вектор признаков, смещая его в сторону третьих лиц (их векторы признаков используются в качестве ориентира). В итоге человек на фотографии неправильно определяется как кто-то другой. Обе разработки доступны для обычных пользователей.
- Исследователи из компании PeopleTec научились создавать изображения в оттенках серого цвета, обманывающие алгоритмы компьютерного зрения. Картинку, которую видит человек, они помещают на полупрозрачный передний план (альфа-канал PNG-файла). Нейросети его игнорируют, обрабатывая только фоновое изображение — там прячется невидимая для человеческого глаза картинка. В результате человек видит снимок аэродрома, а нейросеть — ядерный гриб. Вместо фотографии кота GPT-4 видит лишь спрятанное там сообщение. Если системе распознавания лиц подсунуть обработанную таким образом фотографию, то друзья увидят на снимке вас, а нейросеть — постороннего человека.
😶
Макияж и снова «отравление»
На пятом этапе можно попытаться предотвратить идентификацию человека на конкретном снимке. В случае защиты от системы видеонаблюдения может помочь макияж или специальные аксессуары, которые искажают изображение лица таким образом, чтобы система не смогла правильно его классифицировать. Еще один вариант — спроецированный на лицо инфракрасный свет, невидимый человеческому глазу. В готовые изображения с помощью этих ухищрений вносятся незаметные помехи, чтобы подменить вектор признаков.
Все перечисленные варианты защиты от распознавания лиц не гарантируют 100-процентный результат. А что должно гарантировать?
Идеальная система защиты от нежелательного распознавания лиц, по мнению исследователей из Чикагского университета, должна обладать несколькими свойствами:
- она должна справляться с постоянно эволюционирующими системами распознавания лиц. Чтобы обеспечивать долговременную защиту;
- она должна помогать даже пользователям с незащищенными изображениями лиц в интернете. Чтобы защищать от уже существующих систем распознавания;
- она не должна требовать участия или помощи третьих лиц. Чтобы ей можно было пользоваться самостоятельно;
- она должна вносить минимальные неудобства в повседневную жизнь пользователей. Чтобы от нее не отказались по этой причине;
- она должна оказывать минимальное воздействие на других людей. Чтобы не подвергать их опасности (например, выдавая одного человека за другого).
К сожалению, пока ни одна существующая технология защиты от распознавания лиц не соответствует полностью как минимум первому пункту — то есть не обеспечивает надежной долговременной защиты.
Так, в 2021 году исследователи из Google, Стэнфордского университета и Университет штата Орегон на примере упомянутых выше программ Fawkes и LowKey показали, что стратегия борьбы с системами распознавания лиц имеет существенные ограничения. Доступность этих технологий позволяет разработчикам систем проводить с ними эксперименты и адаптировать свои нейросети к искажениям. Если бы технологии оставались секретными, противостоять им было бы сложнее. То есть в момент изобретения Fawkes and LowKey и правда могли защитить пользователей, но теперь они скорее внушают им ложное чувство безопасности.
Подобные технологии нужны не только для борьбы с распознаванием лиц
Некоторые нейросети умеют генерировать картины по запросу пользователей. Человеку достаточно описать, что там должно быть изображено, и указать, стилем какого художника должен воспользоваться искусственный интеллект.
Так вот для защиты художников от копирования их стиля при генерации картин тоже можно попробовать «скормить» нейросети «отравленные» изображения. Исследователи из Чикагского университета разработали для этих целей сразу две программы: Glaze и Nightshade.
Glazе предназначен для индивидуального применения. Он защищает конкретного художника — вносит такие незаметные для человеческого глаза искажения в его картины, что нейросети некорректно изучают уникальные стилистические особенности работ и не могут их воспроизвести.
Nightshade предназначен для группового использования художниками. Он тоже вносит незаметные изменения. Но не для защиты конкретной работы, а чтобы «свести с ума» нейросеть, разучив ее правильно классифицировать объекты на картине. По утверждению разработчиков, вместо изображения коровы на зеленом поле нейросеть может разглядеть кожаную сумку, лежащую на траве. И когда ее попросят нарисовать сумку — она изобразит корову.
Сейчас авторы этих программ работают над их интеграцией в один инструмент.
Что такое нормализация?
Это преобразования изображений, которые улучшают точность и надежность систем распознавания лиц путем создания более однородного и стандартизированного набора данных для анализа. Процесс нормализации может включать в себя масштабирование и обрезку снимка, коррекцию освещения, выравнивание поворота лица, стандартизацию цвета и текстуры кожи.
Каким образом?
Для сравнения двух векторов признаков обычно используются методы вычисления расстояния или сходства между ними. Например, можно вычислить прямое геометрическое расстояние между векторами в пространстве признаков (меньшее расстояние указывает на большее сходство). Или измерить косинус угла между двумя векторами (при полном сходстве угол будет нулевым и косинус будет равен единице).
Кто это?
Например, провайдер контента (Facebook, Instagram, VK) или другой желающий помочь пользователь.