В данной статье представлен обзор неконтролируемых методов машинного обучения для решения проблем обнаружения аномалий. Представлена классификация методов машинного обучения.
Ключевые слова: неконтролируемое машинное обучение, система обнаружения вторжений, обнаружение аномалий
При стремительно развивающихся информационных технологиях, вопрос обнаружения аномалий стоит остро. Так как, вовремя обнаруженная аномальная активность, может предотвратить атаку, следовательно, повысить информационную безопасность сети в целом. Общая схема методов машинного обучения была представлена в [1]. В статье рассмотрены неконтролируемые методы машинного обучения для обнаружения аномалий.
- Кластерные методы
Методы кластеризации работают, группируя наблюдаемые данные в кластеры, в соответствии с заданным коэффициентом подобия или линией отсчета. Существуют, по крайней мере, два подхода кластеризации основанных на обнаружении аномалий. В первом подходе, модель обнаружения аномалий обучена с использованием немеченых данных, которые включают в себя как нормальные, так и трафик атаки. Во втором подходе, модель обучается, используя только обычные данные для создания профиля нормальной деятельности. Идея первого подхода заключается в том, что аномальные данные или данные атаки формируют небольшой процент отклонения от общего объема данных. Если это предположение справедливо, аномалии и атаки могут быть обнаружены на основе размера кластера, крупные кластеры соответствуют нормальным данным, а все остальные точки данных, которые являются выпадающими, соответствуют атакам [2].
1.1. Неконтролируемые нейронные сети
Два типичных примера неконтролируемых нейронных сетей это самоорганизующаяся карта и адаптивная теория резонанса. Они используют сходство с объектами группы. Данные методы подходят для задач обнаружения вторжений, где нормальное поведение плотно сконцентрировано вокруг одного или двух центров, в то время как аномальное поведения и вторжения разнесены в пространстве за пределами нормальных кластеров.
1.2. Самоорганизующейся карты (SOM)
Самоорганизующейся карты (SOM) обучаются неконтролируемым конкурентным алгоритмом обучения. Целью SOM является снижение размерности визуализации данных. SOM Кохонена связывает каждый из входных векторов с выходным делегатом. Сеть обнаруживает узел ближайший к каждому обучающему событию и перемещает выигрышный узел, который является ближайшим нейроном (т. е. нейрон с минимальным расстоянием) в процессе обучения. То есть, SOM отображает аналогичные входные векторы на одних и тех же или аналогичных выходных блоках на двухмерной карте, что приводит к самоорганизации выходных блоков в упорядоченную карту и выходных единиц аналогичных весов, также размещенных рядом после обучения.
SOM являются наиболее популярным алгоритмом нейронных сетей для задач обнаружения аномалий. Например, Oh и Chae [3] был предложен подход системы обнаружения вторжений в режиме реального времени на основе SOM, который группирует аналогичные данные и визуализирует их кластеры. Система меток карты SOM с использованием корреляции между функциями. Jun и др. [4] представили методологию нового анализа свойств потока сетевого трафика с некоторыми новыми методами, в том числе новой модели квантования состояний TCP.
Адаптивная теория резонанса (АРТ) охватывает ряд моделей нейронных сетей, которые выполняют неконтролируемое или контролируемое обучение, распознавание образов и прогнозирование.
Amini и др. [5] сравнили производительность ART-1 (прием бинарных входов) и ART-2 (принимая непрерывные входы) на KDD99 данных. Liao и др. [6] развернули в основе адаптивного обучения Fuzzy ART, который подходит для динамической смены среды. Нормальные изменения поведения эффективно распознаны в то время как аномальные действия по-прежнему могут быть идентифицированы, что понижает количество ложных срабатываний.
1.3. К-средних
Алгоритм К-средних является традиционным алгоритмом кластеризации. Он делит данные на К кластеры, а также гарантирует, что данные в пределах одного кластера одинаковы, в то время как данные в различных кластерах имеют мало общих черт. Алгоритм К-средних сначала выбирает данные K случайным образом в качестве исходного центра кластера, а остальные данные добавляет в кластер с наибольшим сходством в соответствии с его расстоянием до центра кластера, а затем пересчитывает кластерный центр каждого кластера. Данный процесс повторяется, пока каждый центр кластера не изменится. Таким образом, данные разделены на K кластеров. К сожалению, алгоритм кластеризации K-средних чувствителен к выбросам и набор объектов ближе к центроиду может быть пустым, в этом случае центроид не может быть обновлен.
Cuixiao и др. [7] была предложена модель (IDS) смешанной системы обнаружения вторжений. Данные проверяются модулем обнаружения неправильного использования, а затем обнаружение аномальных данных осуществляется модулем обнаружения аномалий. В этой модели, неконтролируемый метод кластеризации используется для построения модуля обнаружения аномалий. Используемый алгоритм представляет собой усовершенствованный алгоритм K-средних, данная модернизация демонстрирует высокий уровень обнаружения в модуле обнаружения аномалий.
1.4. Fuzzy C-Means (FCM)
Fuzzy C-means представляет собой метод кластеризации, который допускает одной части данных принадлежать к двум или более кластерам. Fuzzy C-means аналогичен K-средних, за исключением, что членство в каждой точке определяется на основе нечеткой функции и все точки вносят свой вклад в перемещение центроида кластера на основе их нечеткого членства в этом кластере.
Yu и Jian [8] был предложен подход использующий несколько методов мягких вычислений для построения иерархической нейро-нечеткой системы обнаружения вторжений. При таком подходе основной компонент анализа нейронной сети используется для уменьшения размеров пространства признаков. Предварительно обработанные данные были сгруппированы алгоритмом кластеризации Fuzzy C-means.
1.5. Unsupervised Niche Clustering (UNC)
UNC представляет собой устойчивый алгоритм кластеризации. Эволюционный алгоритм помогает находить кластеры с помощью надежной функции пригодности плотности, в то время как метод niching позволяет создавать и поддерживать нишам (кандидат кластеров). Так как UNC основана на генетической оптимизации, гораздо менее чувствительны к неоптимальных решений по сравнению с традиционными методами. основным преимуществом алгоритма является возможность обработки шума и определения кластеров номер, который автоматически. Элизабет и др. [9] объединил UNC с нечеткой теории множеств для обнаружения аномалий, и применил его к сети обнаружения вторжений. Они связаны с каждого кластера, порожденного UNC функция-член, который следует гауссову форму с использованием выделяющегося кластера центр и радиус. Такое членство кластера функции будет определять уровень нормальности выборки данных
1.6. Ожидание-максимизация мета алгоритм (EM)
Ожидание-максимизация представляет собой алгоритм для нахождения оценок максимальной вероятности параметров в вероятностных моделях. Алгоритм кластеризации EM чередует выполнение шага расчета ожидания (E), путем вычисления оценки вероятности с использованием текущих параметров модели (если они известны), и шаг максимизации (М), путем вычисления оценок максимального вероятности параметров модели. Новые оценки параметров модели внесут свой вклад на шаге расчета ожидания в следующей итерации.
Примечательные особенности SCAN включают в себя: (а) рациональные образцы входящего сетевого трафика, чтобы уменьшить объем данных в ходе анализа выборки, сохраняя при этом внутренние характеристики самого сетевого трафика; (б) он вычисляет недостающие элементы из выборки данных аудита, используя расширенный (EM); и (в) он увеличивает скорость сходимости процесса кластеризации путем использования Bloom фильтров и сводные данные
- Одноклассовая машина опорных векторов (OCSVM)
OCSVM является показательным образцом метода машины опорных векторов, который ориентирован на обнаружение аномалий. OCSVM варьируется от общей версии SVM в том, что результирующая задача квадратичной оптимизации включает в себя надстройку для определения небольшого процента заранее определенных аномальных значений, что позволяет использовать данный метод для обнаружения аномалий. Эти аномальные значения лежат между исходной точкой и оптимальной разделяющей гиперплоскостью. Все остальные данные попадают на противоположную сторону оптимальной разделяющей гиперплоскости, принадлежащие к одному классу номинального. SVM выдает метку, которая представляет собой расстояние от тестируемой точки данных до оптимальной гиперплоскости. Положительные значения на выводе SVM одного класса представляют собой нормальное поведение (с более высокими значениями, представляющими большую нормальность) и отрицательные значения представляют собой аномальное поведение (с более низкими значениями, представляющими большую аномальность)
Rui и др. [10] был предложен метод обнаружения сетевых аномалий на основе OCSVM. Метод содержит два основных этапа: первый шаг подготовка детектора, обучающий набор данных используется для создания детектора OCSVM, который способен изучить данные номинального профиля, а второй шаг обнаружения аномалий в текущих данных с помощью обученного детектора.
Литература:
- Кожевникова И. С., Ананьин Е. В., Лысенко А. В., Никишова А. В. Контролируемые методы машинного обучения как средство детектирования сетевых вторжений // Молодой ученый. — 2016. — № 27. — С. 20–23.
- Никишова А. В. Интеллектуальная система обнаружения атак на основе многоагентного подхода // Вестник Волгоградского государственного университета. Серия 10. Инновационная деятельность. — 2011. — № 5. — С.35–37.
- Oh and Chae.2008. Real Time Intrusion Detection System Based on Self-Organized Maps and Feature Correlations. The Proceedings of the Third International Conference on Convergence and Hybrid Information.
- Jun, Z., Ming, H., Hong, Z.2004. A new Method of Data Preprocessing and Anomaly Detection. Pro. of Third Inter. Conf on Machine Learning and cybernetics.
- Amini and Jalili. 2004. Network-based intrusion detection using unsupervised adaptive resonance theory. in Proceedings of the 4th Conference on Engineering of Intelligent Systems (EIS’04).
- Liao,Y., Vemuri,R. and Pasos,A. 2007.” Adaptive anomaly detection with evolving connectionist Systems”. Journal of Network and Computer Applications, Vol.30, NO1, PP. 60–80.
- Guobing,Z.,Cuixia,Z.and Shanshan,s.2009. A Mixed Unsupervised Clustering-based Intrusion Detection Model. Third International Conference on Genetic and Evolutionary Computing.
- Yu, Z. and Jian, F. 2009 Intrusion Detection Model Based on Hierarchical Fuzzy Inference System. Second International Conference on Information and Computing Science Icic.
- Lizabeth, L., Olfa, N. and Jonatan,G.2007. Anomaly detection based on unsupervised niche clustering with application to network intrusion detection. Proceedings of the IEEE Conference on Evolutionary Computation.
- Rui, Z., Shaoyan, Z., Yang, L. and Jianmin,J.2008. Network Anomaly Detection Using One Class Support Vector Machine. Proceedings of the International Multi Conference of Engineers and Computer Scientists.