Подписка
МЕНЮ
Подписка

Ближайшие онлайн-мероприятия компании "Гротек" 18 сентября. Комплексная безопасность объектов промышленности 19 сентября. Выбор и проектирование системы газового пожаротушения 25 сентября. Умные парковки и автоматизация пропускного режима для ЖК и  коммерческой недвижимости   Регистрируйтесь и участвуйте!

О производительности и надежности распознавания лиц искусственным интеллектом

Никита Андриянов, 02/09/24

Для решения задачи распознавания лиц сейчас практически везде применяются нейросетевые технологии. В этой статье мы рассмотрим классическую схему работы метрических систем распознавания лиц и State of the Art (SotA) – так называемые передовые технологии, представим сравнение современных алгоритмов обнаружения и распознавания лиц, выявим потенциальные опасности, заключающиеся в проведении визуальных атак на системы распознавания лиц, и расскажем про возможности борьбы с ними. Два основных бенчмарка для работы с изображениями лиц, имеющиеся в свободном доступе, дополнят нашу картину.

На сегодняшний день распознавание лиц представляет собой одно из наиболее активно развивающихся и востребованных направлений компьютерного зрения, хотя может сложиться мнение, что данная проблема успешно решена несколько лет назад [1, 2]. Эта технология находит широкое применение в самых разных сферах, от систем безопасности и контроля доступа до развлекательных приложений и социальных сетей. По мере роста популярности и распространения систем распознавания лиц они становятся все более значимой частью нашей повседневной жизни.

Ключевую роль в успехах распознавания лиц играют достижения в области глубокого обучения. Современные нейронные сети демонстрируют высокую точность и эффективность в задачах обнаружения, идентификации и верификации личности по изображениям или видео [3, 4]. Тем не менее развитие этой технологии сопровождается появлением новых вызовов и угроз. Злоумышленники постоянно разрабатывают все более изощренные атаки [5], направленные на обход или введение в заблуждение систем распознавания лиц, что ставит перед исследователями дополнительные цели повышения их надежности и устойчивости.

Биометрическая идентификация. ОБЗОР >>

Отличие распознавания лиц от классификации изображений

Задача распознавания лиц имеет несколько отличий от традиционной классификации изображений, распространенной в компьютерном зрении. Во-первых, крайне редко встречаются ситуации, когда весь кадр изображения занимает только лицо. Часто требуется распознавание лиц на значительном удалении от камеры, поэтому первым этапом в такой системе является не распознаватель, а обнаружитель лиц. Во-вторых, в отличие от традиционных классификационных задач, при распознавании лиц достаточно много классов, но мало примеров на каждый из них. В связи с этим необходима предобработка для приведения всех лиц в "нормальное состояние". Более того, система должна уметь определять "все лица", которые не принадлежали ее обучающей выборке как "неизвестные". Это требует использования метрических систем. Фактически нейронная сеть кодирует изображения всех эталонных лиц с предобученными весами, затем те же веса используются для кодировки новых данных.

Кодировка представляет собой вектор, и, действительно, можно рассчитать расстояние между любым эталонным вектором и вектором для текущего изображения. Вводя определенный порог на близость векторов, отсекаем все "неизвестные лица". Такой подход удобен и не требует нового обучения при удалении лиц из базы или их добавлении. Метрическая система распознавания лиц представлена на рис. 1.

Рис. 1. Структурная схема метрического распознавателя лицРис. 1. Структурная схема метрического распознавателя лиц

Различия алгоритмов моделей обнаружения и распознавания лиц

Для определения близости двух векторов, как правило, чаще применяется косинусное сходство. На рис. 2 показаны некоторые примеры из бенчмарка Labelled Faces in the Wild (LFW) [6].

Рис. 2. Примеры изображений LFW1Рис. 2. Примеры изображений LFW1

Для этого набора данных с рис. 2 нами был проведен сравнительный анализ различных современных моделей нейронных сетей для распознавания лиц. Результаты сравнения производительности и доли верных распознаваний представлены в табл. 1, все эксперименты выполнены в среде Google Colab в вычислительной среде CPU.

Таблица 1. Сравнение распознавателей лицТаблица 1. Сравнение распознавателей лиц

Из табл. 1 видно, что наиболее оптимальной в плане скорости и точности является модель FaceNet. Выше нами рассмотрена задача идентификации лиц. Однако ей всегда предшествует задача обнаружения, которая в компьютерном зрении считается более сложной. Получая на вход изображение, модель детекции должна предоставить на выход координаты ограничивающих прямоугольников для каждого обнаруженного на снимке лица. Для тестирования таких моделей лучше подходит датасет WIDER Faces [7]. Примеры изображений из этого набора данных представлены на рис. 3.

Рис. 3. Примеры изображений WIDER Faces2Рис. 3. Примеры изображений WIDER Faces2

Из представленного рисунка понятно, что для такого датасета и задача обнаружения становится гораздо сложнее. В частности, можно заметить снимки с огромным количеством лиц на далеком удалении от камеры. Вместе с тем обнаружение объектов на изображениях с помощью нейронных сетей является более вычислительно затратной задачей, чем классификация. Поэтому для обнаружения лиц ранее часто использовали метод Виолы – Джонса, так как он превосходил глубокие нейронные сети в скорости обработки. Пример его работы представлен на рис. 4.

Рис. 4. Методы Виолы – Джонса3Рис. 4. Методы Виолы – Джонса3

В связи с достаточной сложностью работы с датасетом WIDER Faces и большим акцентированием внимания на исследовании производительности моделей было решено протестировать скорость и качество различных алгоритмов на нескольких изображениях. При этом сравнивались изображения с мешающими предметами, а также изображения с большим количеством лиц. На рис. 5 показаны результаты обработки снимков с помощью метода Виолы – Джонса, а на рис. 6 – с помощью модели YuNet [8], выбранной для повышения производительности.

Рис. 5. Обработка тестовых снимков методом Виолы – ДжонсаРис. 5. Обработка тестовых снимков методом Виолы – Джонса

Рис. 6. Обработка тестовых снимков моделью YuNetРис. 6. Обработка тестовых снимков моделью YuNet

Для сравнения производительности использовалось вычисление среднего времени обработки кадров (каждая картинка обрабатывалась 100 раз) с помощью CPU-процессора среды Google Colab. В табл. 2 представлены результаты сравнения скорости обработки. В ячейках записано среднее время обработки кадра. Следует отметить, что другие нейросетевые технологии не сравнивались, поскольку для быстрой работы они требуют использования графических процессоров NVIDIA (GPU) и заведомо уступают в скорости обработки информации методу Виолы – Джонса при использовании CPU.

Таблица 2. Сравнение производительности моделей детекции лицТаблица 2. Сравнение производительности моделей детекции лиц

Анализ результатов табл. 2 показывает, что применение YuNet позволяет уменьшить среднее время обработки кадров в два-три раза для случая с единичными лицами и в пять-шесть раз для случаев с большим количеством лиц.

Таким образом, хорошим пайплайном для полного цикла распознавания является применение детектора лиц YuNet и классификатора (для извлечения признаков) FaceNet. Однако существуют методы атак на нейронные сети, которые требуют от разработчиков решений идентификации лиц дополнительных методов защиты.

Распознавание лиц в СКУД. ОБЗОР ПРОДУКТОВ >>

Визуальные атаки и методы борьбы с ними

Исследования [9, 10] подтверждают, что можно заставить нейронную сеть давать неправильные ответы в случае использования состязательных атак на изображения. В частности, технологии работы сверточных нейронных сетей являются уязвимыми к применению резких перепадов яркости пикселей.
Патчи в стиле "шахматной доски" могут сбить работу системы обнаружения, не говоря уже об идентификаторе лиц. Вместе с тем опасность представляют и однородные вставки белого или черного без яркостного перепада.
На рис. 7 показан пример штатного функционирования детектора лиц MTCNN и его работа при воздействии визуальной атаки.

Рис. 7. Срыв работы детектора с помощью патчей на маске4Рис. 7. Срыв работы детектора с помощью патчей на маске4

В нашем исследовании были реализованы состязательные атаки на изображения лиц. На рис. 8 показаны результаты распознавания лиц чистого изображения (слева) и "атакованного" изображения (справа).

Рис. 8. Срыв работы классификатора с помощью визуальной атакиРис. 8. Срыв работы классификатора с помощью визуальной атаки

Следует отметить, что на рис. 8 внесены незначительные изменения в изображение, которые могут даже не улавливаться человеческим глазом. Однако это приводит к ошибке работы нейронной сети. Чтобы бороться с такой атакой, было предложено добавление искаженных изображений в обучающую выборку и повторное обучение модели. В табл. 3 представлены результаты моделирования ситуации распознавания моделями, обученными с помощью добавления искаженных примеров в различных пропорциях в обучающий датасет, причем использовались только атаки Fast Sign Gradient Method (FGSM).
Из табл. 3 можно сделать вывод, что расширение базы не должно быть существенным, однако и маленькое количество инъекций искаженных снимков не дает значительного прироста точности. Для исследованного примера данных оптимальной оказалась доля в 20%.

Таблица 3. Повышение эффективности распознавания за счет аугментации обучающих данныхТаблица 3. Повышение эффективности распознавания за счет аугментации обучающих данных

Заключение

Итак, мы рассмотрели актуальные тенденции в области распознавания лиц и проанализировали ключевые проблемы, стоящие перед исследователями и разработчиками. Особое внимание было уделено современным методам глубокого обучения, применяемым в задачах обнаружения, идентификации и верификации личности, методам противодействия различным атакам на системы распознавания лиц. Дальнейшее развитие систем, несомненно, будет сопровождаться появлением новых вызовов. Для обеспечения их надежности и безопасности необходимо продолжать интенсивные исследования в областях глубокого обучения, компьютерного зрения, а также методов защиты информации и обеспечения устойчивости и надежности работы нейронных сетей, в том числе за счет объясняемого искусственного интеллекта. Только комплексный подход, сочетающий передовые научно-технические разработки и эффективные меры правового регулирования, позволит в полной мере раскрыть потенциал технологий распознавания лиц на благо общества.

Список литературы

  1. Kumar N., Berg A., Belhumeur P., Nayar S. Attribute and Simile Classifiers for Face Verification // ICCV 2009, p. 1–8, Режим доступа: https://www.cs.columbia.edu/CAVE/publications/pdfs/Kumar_ICCV09.pdf, дата обращения: 24.07.2024.
  2. Deng J., Guo J., Yang J., Xue N., Kotsia I., Zafeiriou S. ArcFace: Additive Angular Margin Loss for Deep Face Recognition // arXiv preprint, 2018. Режим доступа: https://arxiv.org/abs/1801.07698, дата обращения: 24.07.2024.
  3. Андриянов Н.А., Куличенко Я.В. Применение генеративных моделей изображений для аугментирования данных обучения детектора лиц // Нейрокомпьютеры: разработка, применение. 2023. T. 25. № 5. С. 7–15. DOI: https://doi.org/ 10.18127/j19998554-202305-02.
  4. Svitov D.V., Alyamkin S.A. Distilling face recognition models trained using margin-based softmax function // Automation and Remote Control vol. 83(10), pp. 1517–1526.
  5. Komkov S., Petiushko A. AdvHat: Real-world adversarial attack on ArcFace Face ID system // arXiv preprint, 2019, pp. 1–9. Режим доступа: https://arxiv.org/abs/1908.08705 (дата обращения: 24.07.2024).
  6. Labelled Faces in the Wild. – [Электронный ресурс]. – URL: https://www.kaggle.com/datasets/jessicali9530/lfw-dataset (дата обращения: 23.07.2024).
  7. WIDER Faces Dataset. – [Электронный ресурс]. – URL: https://www.kaggle.com/datasets/mksaad/wider-face-a-face-detection-benchmark (дата обращения: 23.07.2024).
  8. Wu W., Peng H., Yu S. YuNet: A Tiny Millisecondlevel Face Detector // Machine Intelligence Research, 2023, 4(2), pp. 18–32.
  9. Kaziakhmedov E., Kireev K., Melnikov G., Pautov M., Petiushko A. Real-world adversarial attack on MTCNN face detection system. Режим доступа: https://arxiv.org/abs/1910.06261 (дата обращения: 24.07.2024).
  10. Andriyanov, N. Methods for Preventing Visual Attacks in Convolutional Neural Networks Based on Data Discard and Dimensionality Reduction. Appl. Sci. 2021, 11, 5235. https://doi.org/10.3390/app11115235. 

Иллюстрации предоставлены автором.

4 E. Kaziakhmedov, K. Kireev, G. Melnikov, M. Pautov, A. Petiushko, "Real-world adversarial attack on MTCNN face detection system", URL: https://arxiv.org/abs/1910.06261 

Опубликовано в журнале "Системы безопасности" № 4/2024

Все статьи журнала "Системы безопасности"
доступны для скачивания в iMag >>

Изображение от freepik

Узнайте о возможностях лидогенерации и продвижении через контент

Темы:БиометрияИдентификацияИскусственный интеллектЖурнал "Системы безопасности" №2/2024
Статьи по той же темеСтатьи по той же теме

Хотите участвовать?

Выберите вариант!

 

КАЛЕНДАРЬ МЕРОПРИЯТИЙ
ПОСЕТИТЬ МЕРОПРИЯТИЯ
ВЫСТУПИТЬ НА КОНФЕРЕНЦИЯХ
СТАТЬ РЕКЛАМОДАТЕЛЕМ
Комментарии

More...

More...