Технологии интеллектуального анализа данных для повышения эффективности КСБ
Дмитрий Дудко, 29/10/21
В течение последних лет ИТ-лексикон обогатился новыми терминами – "блокчейн", "майнинг", "машинное обучение", "большие данные", "искусственный интеллект" и др. Они так прочно вошли в обиход, что уже сложно найти статью, пресс-релиз, презентацию, выступление или коммерческое предложение без упоминания того или иного популярного выражения. Термин "интеллектуальный анализ данных" тоже из их числа. Попробуем разобраться в этом понятии и его применимости к задачам систем безопасности.
Одно из определений интеллектуального анализа гласит, что "это направление информационных технологий, охватывающее всю область проблем, связанных с извлечением знаний из массивов данных"1.
В широком смысле можно поставить знак равенства между интеллектуальным анализом и Data Mining (раскопка, разработка данных). Если углубиться в терминологию, то разница будет в объеме вопросов, решаемых в рамках данных дисциплин. Методы Data Mining сосредоточиваются главным образом на процессах анализа данных и моделировании. Интеллектуальный анализ данных рассматривает весь спектр вопросов, связанных с процессом извлечения знаний из баз данных.
В основе данных дисциплин лежит информация (знания). Нет информации – нет анализа. Процесс поиска полезных знаний в данных называется Knowledge Discovery in Databases (KDD). KDD занимается вопросами подготовки, критериев выбора и интерпретации результатов при переводе "белого шума" данных в информацию. Для этого применяется огромное количество математических методов, включая статистику.
На рис. 1 представлена взаимосвязь областей знаний и их отношение к Data Mining, а вся совокупность методов и есть интеллектуальный анализ данных.
Рис. 1. Взаимосвязь Data Mining и областей знаний
Области применения
В теории все звучит хорошо, но нас интересует практическое применение. К сожалению, большинство реализаций Data Mining не относится к реальным секторам жизни. Подавляющее количество продуктов работает в сферах продаж и маркетинга, где они пытаются на основании предпочтений пользователей предложить "нужный" товар. В зависимости от того, что является источником данных предпочтений, результат получается или плохой, или средний.
Из всего многообразия результатов для целей безопасности можно применить следующие:
- прогнозирование (нагрузки, времени простоя автоматизированной системы или ключевых элементов);
- риск и вероятность (определение точки равновесия для рисковых сценариев, назначение вероятностей сценариям, рискам, событиям);
- поиск последовательностей (анализ действий пользователей, прогнозирование следующего возможного события);
- группировка (разделение событий на кластеры связанных элементов, анализ и прогнозирование общих черт).
В первом приближении выглядит интригующе, но давайте присмотримся внимательнее.
Прогнозирование
Прогнозирование – краеугольный камень любой аналитики. Знание, или прогнозирование будущего, – серьезное преимущество во всех сферах человеческой деятельности.
Уже очень давно существует мнение о том, что, зная прошлое, можно предсказать будущее. Увы, такие модели не всегда точны, а вернее – всегда не точны. Проблема кроется в недостатке исходных данных, когда существующая модель прогноза не учитывает каких-либо внешних факторов. Здесь плавают "черные лебеди"2, то есть непредвиденные и неучтенные события, которые приводят к чудовищному краху.
Поэтому предсказательная (или предиктивная) аналитика сейчас хорошо работает только для четко очерченных областей, когда можно учесть все факторы. В первую очередь предиктивная аналитика эффективна в отношении автоматизированных систем и их элементов. Даже если использовать расширенное понятие автоматизированной системы (в том числе и системы безопасности), мы всегда получаем конечное количество элементов:
- аппаратная часть;
- программная часть;
- СУБД;
- каналы связи;
- пользователи;
- администраторы.
Эти элементы укладываются в определенные сценарии поведения и имеют понятную историю работы и инцидентов. Именно в наполнении модели данными пригодятся инструменты Data Mining, прежде всего статистика и методы оптимизации, поскольку, например, собрать данные о финансовом ущербе от простоя того или иного элемента – задача нетривиальная, которая потребует переработки и подключения большого количества источников данных внутри компании.
На базе этого можно выстроить модель, предсказывающую выход из строя оборудования или отказ системы. В таком случае прогнозирование позволит предсказать состояние системы при любых исходных параметрах, что, согласитесь, весьма неплохо.
Риск и вероятность
Мы уже обсудили, что при прогнозировании оценка конкретных значений может быть достаточно сложной. Это связано, как отмечено выше, с количеством возможных вариантов и проблемой недостатка данных. Даже квалифицированный эксперт не всегда в состоянии достаточно надежно оценить соответствующие вероятности, когда число вариантов велико.
Если мы не можем точно предсказать будущее, то, по крайней мере, сможем предположить хотя бы возможные сценарии этого будущего.
Для этого используется подход рисковых сценариев (или просто сценариев), предусматривающий исследование при измерении риска ограниченного числа вариантов.
Основное предположение подхода сценариев состоит в том, что неопределенность развития будущего связана только с тем, какой сценарий наступит, а в процессе реализации сценарий не меняется. Такое условие приводит к резкому сокращению числа возможных исходов и, соответственно, к уменьшению необходимой исходной информации. В этом и заключается основное преимущество расчетов риска на основе сценариев будущего развития по сравнению с другими методами, например методом дерева событий.
То есть применительно к безопасности действия потенциальных нарушителей – это и есть рисковые сценарии, которые не меняются в случае реализации. Остается только определить объекты воздействия и угрозы3, и можно отслеживать изменения текущей ситуации с целью предупреждения инцидентов.
Если с проблемами классической безопасности (активы, угрозы, нарушители) можно справиться, используя ручку и бумагу (или, как вариант, таблицу в Excel), то отслеживание текущей ситуации, а особенно определение момента, когда сценарий выходит из равновесного состояния (когда нет предпосылок его реализации), уже невозможно без интеллектуального анализа.
Поиск последовательностей
Поиск последовательностей – сочетание двух предыдущих пунктов, приложенных к субъектам системы. Именно этот раздел получил наибольшее развитие в анализе, видимо, потому что разработчики обещали увеличение продаж.
С точки зрения безопасности выгода от анализа действий пользователей очевидна: тот, кто делает не как все, попадает под подозрение. Механизмы Data Mining в этом случае помогают объединить данные из систем видео- и аудионаблюдения, рабочих систем, деловой переписки и телефонных переговоров, а машинное обучение – рассчитывать равновесное состояние отклонения от нормы и сигнализировать, когда оно будет нарушено.
Группировка
Группировка (или корреляция) событий – это метод тщательного расследования, когда идет поиск взаимосвязи между событиями из разных сфер. Например, ваш главный бухгалтер ищет работу, а через месяц у вас налоговая проверка или большой убыток.
Качество группировки напрямую зависит от исходных данных. В моей практике был пример, когда внутреннюю группу мошенников удалось обнаружить благодаря обычным почтовым сообщениям, так как им требовалась периодическая связь между собой по внутренним коммуникациям. Все внутренние системы безопасности и анализа были направлены на финансовые и производственные системы, внимание на обычную почту никто не обращал. Добавив дополнительный источник данных, их группу быстро изобличили.
"Я уже хочу купить"
Если результаты интеллектуального анализа вам нужны и вы уже хотите их купить, то вас ждет сложный путь. Методы интеллектуального анализа – это вершина пирамиды, которая рухнет без нижестоящих ярусов. В первую очередь ваша компания должна быть достаточно зрелой в плане ИТ-инфраструктуры и систем. Очень сложно реализовать машинное обучение на бумажных данных.
Во-вторых, необходимо заручиться содействием владельцев источников данных. Все уже более или менее свыклись, что вокруг "бегают" безопасники и навязывают им какие-то меры.
Но подавляющее большинство не готово дать вам доступ к исходным данным, а именно они являются главным источником для анализа.
В-третьих, необходимо точно понимать, какого результата нужно достичь. На рынке нет коробочных решений, и каждая инсталляция – это совместный труд заказчика и исполнителя.
Не проще, но эффективнее
Методы интеллектуального анализа действительно могут качественно изменить работу служб безопасности. Работа не станет проще, но станет эффективнее. Для этого необходимо четко определить нужный результат и трезво оценить имеющиеся ресурсы. Тогда у вас все получится.