Статьи | Secuteck.Ru

Технологии тестирования искусственного интеллекта

Written by Александр Иванов | 02/07/25

Как оценить, во сколько раз сверточная нейросеть понижает энтропию белого шума при сжатии реальных данных?

В статье рассматривается вопрос нейротрансформаторного свертывания размерности при анализе данных лица человека, в том числе различные варианты использования сверточных нейросетей глубокого обучения для решения задач биометрии.

Качество нейросетевых преобразований сегодня принято оценивать апостериорно. Сначала нужно купить нейросетевого кота в мешке, а потом проверить, как он ловит мышей в твоих практических, нужных только тебе задачах.

Создание новых приложений искусственного интеллекта предполагает формирование технического задания (ТЗ) заказчиком для исполнителя. В техническом задании недопустимы сказочные формулировки типа "Иди туда, не знаю куда, разработай мне то, не знаю что, но это что-то должно быть мне нужное и полезное". Формулировки в ТЗ должны быть всегда конкретными, например "Хочу в моей задаче использовать сверточную нейросеть, которая подавляет энтропию хаоса исходных данных в 100 раз". Методику проведения приемо-сдаточных испытаний исполнитель должен, как обычно, разработать и согласовать с заказчиком.

Близкая к нам предыстория создания приложений нейросетевого искусственного интеллекта

Еще недавно научно-техническая общественность была озабочена проблемами обучения перспективных многослойных сетей искусственных нейронов. Примерно семь лет назад эта озабоченность была снята. Появились многослойные сверточные нейросети глубокого обучения [1, 2], архитектура которых позволяет эффективно распознавать лица людей. Архитектура подобных нейросетей может быть разной. Может быть выбрана разная длина входного вектора, определяющаяся выбором окна в пикселях, к которой приводится анализируемое лицо человека. Так, в статье [3] описана ситуация, когда окно, для которого приводится масштаб лица человека, составляет квадрат 64х64 8-битных RGB-пикселей, или вектор из 4096 сырых биометрических параметров. Далее вектор из 4096 сырых биометрических параметров свертывается сверточными нейронами многослойной нейросети глубокого обучения до 256 более качественных 8-битных биометрических параметров. То есть сверточная нейросеть понижает размерность решаемой задачи с 4096 до 256, или в 16 раз, по длине вектора анализируемых параметров. Формально каждая сверточная нейросеть может рассматриваться как некоторый трансформатор для понижения размерности решаемой задачи (аналогия с обычным электротехническим трансформатором, понижающим напряжение).

Обычный электротехнический трансформатор, понижая напряжение, позволяет получать гораздо больший ток. Трансформаторами обеспечивается передача примерно 95% электрической мощности с первого высокого уровня переменного напряжения на более низкий выходной уровень переменного напряжения. Переменный выходной ток при этом пропорционально увеличивается.

В нашем случае для рассматриваемого сверточного нейротрансформатора эквивалентом напряжения является размерность данных. Оценивается число анализируемых биометрических параметров (длина входного и выходного вектора). Тогда эквивалентностью тока будет являться информативность каждого из входных и выходных биометрических параметров лица человека. На входе сверточной нейросети информативность сырых биометрических параметров низкая, но параметров много – 4096.

На выходе сверточного нейротрансформатора параметров в 16 раз меньше, но их информативность много выше. Собственно, обогащение сырых входных биометрических данных до получения более "богатых" выходных данных меньшей размерности – это то, ради чего сверточные нейросети и были созданы.

Заметим, что первым этапом нейросетевого распознавания лиц людей является обнаружение положения лица человека в кадре, как это показано на рис. 1.

Рис. 1. Свертывание входной размерности нейросети – 4096 сырых параметров входного вектора в вектор из меньшей размерности – 256 параметров, но с большей информативностью

На рис. 1 отображен только конечный этап нейротрансформаторного свертывания размерности при анализе данных лица человека. На самом деле технология свертывания оказывается более сложной и сводится к последовательному использованию трех механизмов, работающих последовательно (рис. 2).

Рис. 2. Каскад трех преобразований полного видеокадра в 256 контролируемых биометрических параметров лица пользователя

Анализ данных со свертыванием их размерности выполняется через поиск особых точек на лицах. Автоматически находятся объекты, похожие на глаза человека, на нос, брови, губы, скулы, уши конкретного человека. Если найденные объекты находятся рядом и образуют нужную последовательность, то автомат поиска делает положительное заключение об обнаружении лица в видеокадре. Работа этого автомата позволяет существенно снизить размерность решаемой задачи, так как более глубокому анализу подвергается только обнаруженное лицо человека. Остальная часть изображения не анализируется.

Первые два каскада существенно снижают размерность анализируемого алгоритмом числа параметров. При этом анализируемые данные нестационарны. Снизить уровень нестационарности данных удается, если ввести значительные ограничения на анализируемые видеокадры. Далее будем рассматривать только видеокадры, содержащие хорошо обнаруживаемое лицо человека (нет пропусков обнаружения лиц). То есть качество работы первых двух каскадов понижения размерности нами не рассматривается. Рассматривается только последний каскад нейросетевого обогащения данных.

Связь размерности решаемой задачи с энтропией остаточного хаоса простых технических решений

Очевидно, что размерность решаемой задачи существенно влияет на качество принимаемых простых решений. Более того, классическая, строгая математика далеко не всесильна. К сожалению, правильная математика низкоразмерна, простые решающие правила, опирающиеся на строгую математику, плохо работают для задач большой размерности. Если усложнять решения, например, через использование матриц или тензоров, то решения становятся неустойчивыми (плохо обусловленными).

Одним из компромиссных решений является использование сверточных нейросетей глубокого обучения [1, 2]. В таких математических конструкциях каждый искусственных нейрон является примитивным решающим правилом, однако из-за того, что решающих правил много, они вместе (в составе одной нейросети) способны работать эффективно. Открытым и неоднозначным оказывается сложный вопрос о том, когда, кем и почему выбрана архитектура связей многослойной сети и как обучить нейроны в составе этой конкретной архитектуры. Еще одним, гораздо более простым, вопросом является тестирование достигнутого качества обучения [3, 4, 5].

Следует также отметить, что до активного использования нейросетей при решениях задач биометрии зарубежными исследователями США, Канады, Евросоюза предпринимались попытки применения так называемых нечетких экстракторов [6, 7, 8]. Архитектура "нечетких экстракторов" проста. В них используется сравнение данных со средним значением биометрических параметров. В нашем случае анализа данных лица человека каждый пиксель окна 64х64 будем рассматривать как сырой биометрический параметр. Затем мы должны по анализируемому окну вычислить средний уровень значения 8х3 = 24-битных пикселей – E(p). Далее, опираясь на среднее значение яркости, мы получаем возможность выполнить квантование всех биометрических параметров (4096 входных пикселей):

где pi – один из 4096 черно-белые пикселей, полученных суммированием трех 8-битных RGB-компонент нормированного видеокадра.

Если суммирование 8-битных RGB-компонент выполнено без округлений промежуточных результатов, то разрядность черно-белых пикселей pi вырастает с 8 до 12 бит. Если вычисления (1) выполняются с округлениями промежуточных результатов, то разрядность остается исходной – 8 бит.

Преобразование квантования данных (1) позволяет перейти от условно-непрерывных данных к дискретным бинарным последовательностям длинной 4096 бит. Очевидно, что такие дискретные последовательности уже не могут быть белым шумом, то есть для них энтропия Шеннона всегда должна быть меньше 4096 бит.

Абсолютно такие же преобразования квантования мы можем выполнить и для условно непрерывных выходных данных сверточной нейросети:

где vi – один из 256 контролируемых биометрических параметров лица человека; анализируемый параметр vi условно непрерывен и представлен 8-разрядными числами.

Принципиально важным является то, что и выходные данные сверточной нейросети не могут быть белым шумом, то есть для них энтропия Шеннона всегда меньше 256 бит. Имеет смысл рассматривать сверточные нейросети в качестве некоторых подавителей энтропии входных биометрических данных. По аналогии с электротехникой может быть использовано понятие трансформатора, понижающего влияние энтропии данных и, соответственно, повышающего влияние детерминированной компоненты данных.

Формально оценки энтропии входных данных после их квантования (1) и выходных данных после их квантования (2) могут быть выполнены опираясь на формулу Шеннона. Однако такой путь вычисления оценок не конструктивен. Оценка энтропии по формуле Шеннона является задачей экспоненциальной вычислительной сложности.

Обход проблемы высокой вычислительной сложности оценок энтропии по Шеннону

Проблема вычислений по формуле Шеннона растет по мере увеличения размерности задачи. В нашем случае с входной размерностью энтропии 4096 параметров энтропия по Шеннону будет вычисляться намного сложнее, чем энтропия выходных данных меньшей размерности:

где N≈2256 из-за того, что вероятность появления каждого i-го кодового состояния Pi  мала.
Чем выше число переменных в (3), тем больше нужна выборка для корректной оценки доверительной вероятности.

Из-за того что формула (3) канонизирована, она представлена во всех учебниках. Однако для больших размерностей ею не пользуются.

На практике, как правило, вместо одного вычисления (3) применяют иные приближенные оценки с меньшей вычислительной сложностью. Например, NIST рекомендует 16 тестов поверки криптографического ключа на близость к белому шуму [10]. При этом каждый из 16 тестов должен иметь свою шкалу связи со шкалой энтропии Шеннона. Описания энтропийных шкал ни для одного из 16 тестов NIST пока не создано.

Следует отметить, что одной из заслуг исследователей "нечетких экстракторов" является то, что они начали использовать для упрощения вычислений переход в пространство расстояний Хэмминга:

где "сi" – значение разрядов кода "свой"; "хi" – значение разрядов кода "чужой"; ⊕ – операция сложения по модулю два. В частности, этот технический прием использовал Даугман [8] при анализе рисунков радужной оболочки глаза на стойкость к атакам подбора.

Причина кардинального упрощения задачи кроется в том, что при переходе в пространство расстояний Хэмминга происходит экспоненциальное снижение числа анализируемых статистиками состояний. Так, исходная формула Шеннона (3) ориентирована на анализ огромного числа состояний N= 2256, а преобразование Хэмминга (4) приводит к появлению всего n= (256+1) = 257 состояний.

Вторым важным моментом является то, что преобразование Хэмминга является хорошим нормализатором. То есть несколько случайно выбранных биометрических образов "чужой" всегда будут давать нормальный закон распределения расстояний Хэмминга с математическим ожиданием E(h)≈128 бит, как это отображено на рис. 3.

Рис. 3. Нормальное распределение расстояний Хэмминга для достаточно большой группы образов "все чужие"

В первом приближении достаточно использовать 21 образ "чужой" для того, чтобы оценить математическое ожидание и стандартное отклонение нормального распределения данных [5]. Далее в рамках гипотезы нормального распределения мы можем оценить вероятность удачи атаки случайного подбора биометрических образов, когда расстояние Хэмминга станет нулевым h= 0. Для каждого из 21 тестовых образов "чужой" возникает своя вероятность ошибки второго рода – P2. Оценка значения 256-мерной энтропии Хэмминга выполняется усреднением 21 частных энтропий:

Принципиально важным является то, что энтропия Шеннона и энтропия Хэмминга связаны линейно, как это отображено на рис. 4.

Рис. 4. Линейная связь шкалы энтропии Шеннона и шкалы энтропии Хэмминга

В свою очередь, линейная связь этих двух шкал энтропии дает простую формулу их взаимного пересчета:

В итоге удается обойти "проклятие размерности" вычислений энтропии по Шеннону. Кардинальное сокращение требований к сложности вычислений обусловлено тем, что формула Шеннона (3) построена на ожидании появления редких событий, а формула Хэмминга (5) построена на предсказании вероятностей появления редких событий.

Заключение

На сегодняшний день создано примерно два десятка архитектур сверточных нейронных сетей, ориентированных на распознавание лиц людей. Для каждой из них известны параметры окна анализа лица человека (длина входного вектора условно-непрерывных черно-белых пикселей), а также длина вектора выходных условно непрерывных биометрических параметров. То есть для всех известных архитектур сверточных нейротрансформаторов размерности мы можем посчитать их коэффициент подавления энтропии входных данных. Допустим, коэффициент подавления энтропии сверточными сетями составит значения в диапазоне от 20 до 100 раз. Эти данные могут быть положены в основу создания совершенно новых приложений нейросетевого искусственного интеллекта.

Например, брокеры любой биржи [11] получают прибыль, опираясь на свою способность предсказывать текущее состояние тренда изменения цен рынка ("быки" или "медведи").
Чем надежнее прогноз, тем больше должна быть прибыль, получаемая брокером. Очевидно, что любой инвестор может стать "квалифицированным", если получит в свои руки нейросетевое приложение, предсказывающее текущее состояние рынка ("быки" или "медведи") и ожидаемое время переключения рынка в следующее состояние [12, 13]. Видимо, подобные приложения должны появиться в ближайшее время. Однако их пока нет, их нужно создавать. Для того чтобы их создать, нужно писать техническое задание (ТЗ), где должен быть указан коэффициент понижения энтропии сверточной найронной сетью. В ТЗ нежелательно требовать худшего из уже достигнутых значений коэффициента понижения энтропии в 20 раз. Если в ТЗ оговорить требуемое наилучшее значение в 100-кратное понижение энтропии, то исполнителя можно и не найти. Указанное в ТЗ значение коэффициента понижения энтропии должно лежать в пределах от 20 до 100 раз. Конкретное значение этого показателя должно являться предметом договоренности заказчика и исполнителя.

Список литературы

  1. Николенко С., Кудрин А., Архангельская Е. Глубокое обучение. Погружение в мир нейронных сетей: СПб. Издательский дом "Питер". 2018.
  2. Аггарвал Чару. Нейронные сети и глубокое обучение: СПб. Диалектика. 2020.
  3. Иванов А.И., Лекарь Л.А. О необходимости отечественного стандарта на тестирование качества нейросетевого распознавания лиц людей // Системы безопасности. 2023.№ 5. С. 18--23.
  4. ГОСТ Р ИСО/МЭК 19795-1--2007 "Автоматическая идентификация. Идентификация биометрическая. Эксплуатационные испытания и протоколы испытаний в биометрии". Часть 1. Принципы и структура.
  5. ГОСТ Р 52633.3--2011 "Защита информации. Техника защиты информации. Тестирование стойкости средств высоконадежной биометрической защиты к атакам подбора".
  6. Y. Dodis, L. Reyzin, A. Smith.FuzzyExtractors: HowtoGenerateStrongKeysfromBiometricsandOtherNoisy.2004, аpril 13/InEUROCRYPT, pp. 523--540.
  7. Ramírez-Ruiz J., Pfeiffer C., Nolazco-Flores J. Cryptographic Keys Generation Using FingerCodes. Advances in Artificial Intelligence -- IBERAMIA-SBIA 2006 (LNCS 4140), 2006. Pp. 178—187.
  8. Feng Hao, Ross Anderson, and John Daugman. Crypto with Biometrics Effectively, Ieee transactions on computers. 2006, vol. 55, № 9.
  9. Иванов А.И., Иванов А.П., Юнин А.П. Устранение методической погрешности оценки энтропии в пространстве расстояний Хэмминга // Защита информации. Инсайд., 2023. № 6.С. 55--59.
  10. A Statistical Test Suite for Random and Pseudorandom Number Generators for Cryptographic Applications. NISTSP 800--22.
  11. Найман Э. Как покупать дешево и продавать дорого: Пособие для разумного инвестора. М.: "Альпина Паблишерз", 2011.
  12. Иванов А.И. Экономика промышленного интеллекта: получение сверхприбыли и сокращение рабочих мест//Системы безопасности. 2024. № 1. С. 140--142.
  13. Иванов А.И., Тарасов Д.В. Численный алгоритм нейросетевого распознавания персистентного и антиперсистентного состояний рынка // Известия высших учебных заведений. Поволжский регион. Физико-математические науки. 2024. № 2.С. 63--73.

Иллюстрации предоставлены автором.

Опубликовано в журнале "Системы безопасности" № 3/2025

Все статьи журнала "Системы безопасности"
доступны для скачивания в iMag >>

Иллюстрация к статье сгенерирована нейросетью Kandinsky