Применение машинного обучения для обнаружения сетевых аномалий | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 8 февраля, печатный экземпляр отправим 12 февраля.

Опубликовать статью в журнале

Библиографическое описание:

Кожевникова, И. С. Применение машинного обучения для обнаружения сетевых аномалий / И. С. Кожевникова, Е. В. Ананьин, А. В. Лысенко, А. В. Никишова. — Текст : непосредственный // Молодой ученый. — 2016. — № 24 (128). — С. 19-21. — URL: https://moluch.ru/archive/128/35376/ (дата обращения: 26.01.2025).



Обнаружение вторжений изучается в течение последних 20 лет. Вторжение — это деятельность, которая нарушает политику безопасности информационной системы [1]. Обнаружение вторжений основано на предположении, что поведение нарушителя будет существенно отличаться от нормального поведения, что обеспечит обнаружение большого количества несанкционированных действий.

Системы обнаружения вторжений обычно используются совместно с другими системами защиты, такими как контроль доступа и аутентификации в качестве дополнительной защиты информационных систем [2]. Есть много причин, которые делают обнаружение вторжений важной частью во всей системе защиты. Во-первых, многие из существующих систем и приложений, были разработаны и построены без учета требований безопасности. Во-вторых, компьютерные системы и приложения могут иметь недостатки или ошибки в их конфигурации, которые могут быть использованы злоумышленники для атаки систем или приложений. Таким образом, профилактический метод не может быть столь же эффективным, как и ожидалось.

Системы обнаружения вторжений можно разделить на два класса: системы обнаружения сигнатур и системы обнаружения аномалий. Система обнаружения сигнатур идентифицирует шаблоны трафика данных или приложений которые считаются вредоносными, в то время как системы обнаружения аномалий и сравнивают деятельность с нормальным поведением.

Согласно [3], [4] все методы обнаружения аномалий состоят из следующих основных модулей или этапов (рис. 1). Эти этапы параметризация, обучение и обнаружение. Параметризация включает в себя сбор исходных данных из контролируемой среды. Исходные данные должны быть типичными для системы, которая должна быть смоделирована, (например, данные пакета из сети). Этап обучения моделирует систему с помощью ручных или автоматических методов. Для архитектуры клиент-сервер, сервер является хост, который ожидает входящее соединение. Когда соединение устанавливается между клиентом и сервером, то сервер подтверждает сокет, который будет использоваться для создания экземпляра. Объект обработчика, который работает на отдельном потоке. Эти обработчики будут храниться в объекте коллекции.

общая схема СОВ.jpg

Рис. 1. Общая схема обнаружения аномалий

Этапы, представленные в модели, будут отличаться в зависимости от используемого метода. При обнаружении сравнивается система, созданная на этапе моделирования, с выбранным параметризованным блоком данных. Пороговые критерии будут выбраны для определения аномального поведения [4].

Машинное обучение может построить необходимую модель автоматически на основе некоторых обучающих данных. Применение такого подхода нуждается в наличии необходимой подготовки данных, но эта задача является менее сложной по сравнению с вычислением аномальной модели [5]. С увеличением сложности и количества различных атак, методы машинного обучения, которые позволяют создавать и поддерживать системы обнаружения аномалий (ADS) с меньшим вмешательством человека является единственным практическим подходом для создания следующего поколения систем обнаружения вторжений.

Применение методов машинного обучения для обнаружения вторжений позволит автоматически построить модель, основанную на наборе обучающих данных, которая содержит экземпляры данных, описанных с помощью набора атрибутов (признаков). Атрибуты могут быть различных типов, например качественными или количественными.

Были рассмотрены различные алгоритмы обнаружения аномалий, в таблице 1 представлены плюсы и минусы каждого из них.

Обнаружение аномалий включает в себя контролируемые и неконтролируемые методы. Сравнительный анализ показал, что контролируемые методы обучения значительно превосходят неконтролируемые, если тестовые данные не содержит неизвестных атак. Среди контролируемых методов, наилучшая производительность достигается за счет нелинейных методов, таких как SVM, многослойный персептрон и методов, основанных на правилах. Неконтролируемые методы, такие как K-средних, SOM, и один класс SVM показывают более высокую производительность по сравнению с другими методами, хотя они различаются по эффективности обнаружения всех классов атак.

Методы

Плюсы

Минусы

K — ближайших соседей

  1. Легко реализуем, когда есть несколько предикторов.
  2. Применяется для построения моделей, которые обрабатывают нестандартные типы данных, такие как текст.
  1. Большие требования к объему памяти.
  2. Зависит от выбора функции подобия, которая используется для сравнения экземпляров.
  3. Отсутствие принципиального способа выбора, кроме как через перекрестную проверку или аналогичный способ.
  4. Дорогая вычислительная техника.

Нейронная сеть

  1. Нейронная сеть может выполнять задачи, которые не выполнит линейная программа.
  2. Когда один элемент не справляется с задачей, метод может продолжить работу благодаря параллельной обработке данных.
  3. Нейронную сеть не нужно перепрограммировать.
  4. Может быть реализована в любом приложении.
  1. Нейронная сеть нуждается в обучении.
  2. Высокое время обработки больших нейронных сетей.

Дерево решений

  1. Прост в реализации.
  2. Требует небольшой подготовки данных.
  3. Возможность обрабатывать как числовые и иные типы данных.
  4. Использует модель белого ящика.
  5. Возможность проверки модели с использованием статистических тестов.
  6. Работает с большими данными в короткий промежуток времени.
  1. Проблема обучения оптимального дерева решений, как известно, является NP-полным по нескольким аспектам оптимальности и даже для простых задач.
  2. При создании дерева решений могут получиться неоптимальные и очень сложные деревья, которые плохо обрабатывают данные.
  3. Существуют задачи, которые невозможно отобразить деревом решений, потому что оно не описывает ее полностью.

Машина опорных векторов

  1. Нахождение оптимального разделения гиперплоскости.
  2. Обрабатывает большую размерность данных.
  3. Обычно работает очень хорошо.
  1. Нуждается как в положительных, так и в отрицательных примерах.
  2. Необходимо выбрать хорошую функцию ядра.
  3. Требует много памяти и процессорного времени.
  4. Есть некоторые численные проблемы устойчивости при решении ограничения QP

Самоорганизующиеся карты

  1. Прост в реализации.
  2. Работает с нелинейным набором данных.
  3. Визуализация многомерных данных на 1 или 2-мерном пространстве делает его уникальным, особенно для уменьшения размерности.
  1. Требуется много времени для вычислений.

K-средних

  1. Низкая сложность.
  1. Необходимость указания К.
  2. Чувствительны к помехам и посторонним точкам данных.
  3. Кластеры чувствительны к первоначальному значению.

Алгоритм нечёткой кластеризации Fuzzy C-means

  1. Позволяет точке данных быть в нескольких кластерах.
  1. Необходимо определить число кластеров С.
  2. Необходимо определить пороговое значение участников.
  3. Кластеры чувствительны к начальному заданию центроидов.

Аппроксимация

  1. Можно легко изменить модель, чтобы адаптировать к различным распределениям наборов данных.
  2. Число параметров не увеличивается с увеличением обучающих данных.
  1. В некоторых случаях наблюдается медленная сходимость.

Анализ показал, что контролируемые методы обучения значительно превосходят неконтролируемые, если исследуемые данные не содержит неизвестных атак. Среди контролируемых методов, наилучшая производительность достигается за счет нелинейных методов, таких как SVM, многослойный персептрон и методов основанных на правилах. Неконтролируемые методы, такие как K-средних, SOM, и один класс SVM показывают более высокую производительность по сравнению с другими методами, хотя они показывают различную эффективность обнаружения всех классов атак.

Литература:

  1. Никишова А. В. Интеллектуальная система обнаружения атак на основе многоагентного подхода // Вестник Волгоградского государственного университета. Серия 10. Инновационная деятельность.. — 2011. — № 5. — С. 35–37.
  2. Аткина В. С. Оценка эффективности катастрофоустойчивых решений // Вестник Волгоградского государственного университета. Серия 10. Инновационная деятельность.. — 2012. — № 6. — С. 45–48.
  3. Estevez J., Garcya P., Dyaz J. «Anomaly detection methods in wired networks: a survey and taxonomy». Computer Networks, том.27 — №.16. — 2004. — С. 1569–84.
  4. Garcıa T., Dıaz V., Macia F., Vazquezb. «Anomaly-based network intrusion detection». Computers and security, том 28. — 2009. — С. 18 –28.
  5. Omar S., Ngadi A., Jebur H. «Machine Learning Techniques for Anomaly Detection: An Overview». International Journal of Computer Applications, том 79. — № 2.— 2013 — С. 33–41.
Основные термины (генерируются автоматически): SVM, данные, SOM, нейронная сеть, обнаружение вторжений, машинное обучение, система обнаружения аномалий, высокая производительность, многослойный персептрон, наилучшая производительность.


Задать вопрос