Обнаружение веб-атак с использованием машинного обучения

Буровских, Дмитрий Владимирович; Куликова, Ольга Витальевна; Корнилова, Анна Валерьевна

В статье авторы изучают используемые методы и системы машинного обучения в системах обнаружения вторжений (СОВ), в частности веб-атак.

Ключевые слова: СОВ, веб-атака, машинное обучение, вторжение, нейронная сеть.

Безопасность веб-приложений — это бесконечная процесс мониторинга с целью постоянной защиты информации. После устранения последней угрозы, зачастую появляются новые, более усовершенствованные виды предшествующих. Веб-атаки могут нарушить работу сервисов, вызывая финансовую, репутационную и клиентскую неудовлетворенность. Обнаружение вторжений в течение последних 20 лет широко изучается как в промышленности, так и в научных кругах, но аналитики по кибербезопасности хотят получить более точные предупреждения для обеспечения безопасности систем в киберпространстве.

Вторжение — это несанкционированное проникновение, деятельность, которая нарушает политику безопасности информационной системы. Обнаружение вторжений основано на выявлении аномального поведения, так как считается, что поведение злоумышленника сильно отличается от нормального поведения пользователя, что обеспечивает обнаружение многих несанкционированных действий. Системы обнаружения вторжений обычно используются в сочетании с другими системами безопасности, такими как контроль доступа и аутентификация, в качестве дополнительной защиты информационных систем [1].

Среди видов веб-атак выделяют следующие:

Грубая сила: атака грубой силой — это метод проб и ошибок, используемый хакерами для подбора учетных данных или зашифрованных данных, таких как логин, пароли или ключи шифрования, путем исчерпывающих усилий (с использованием грубой силы) с помощью надеюсь, что в конечном итоге угадаю правильно.
DoS-атака. Атака типа «отказ в обслуживании» (DoS) — это атака, цель которой — закрыть веб-сайт, сделав его недоступным для предполагаемых пользователей, за счет наводнения бесполезным трафиком (нежелательными запросами). Иногда DoS-атаки используются для разрушения систем защиты компьютера.
Ботнеты и DDoS Атака: DDoS-атака — это сокращение от «Распределенная DoS-атака». Такие атаки осуществляются путем наводнения целевого веб-сайта бесполезным трафиком с нескольких устройств или ботнета. Ботнет — это сеть компьютеров, зараженных вредоносным ПО (вредоносным ПО) без ведома пользователя, организованная в группу и контролируемая киберпреступниками. Современные ботнеты могут содержать десятки тысяч взломанных мобильных устройств или настольных компьютеров. Современные DDoS-атаки по своей природе дороги и требуют больших ресурсов. Обычно это означает, что у вас есть сильный противник, у которого достаточно серых денег, чтобы отдать приказ на такую атаку. Очень часто выполнение DDoS-атак заказывают недобросовестные конкуренты или политические оппоненты.
SQL-инъекция: SQL-инъекция — это метод внедрения кода, используемый для атаки приложений, управляемых данными, при котором вредоносные операторы SQL вставляются в поле ввода для выполнения. SQL-инъекция — одна из самых распространенных в Интернете техники взлома. SQL-инъекция — это размещение вредоносного кода в операторах SQL через ввод веб-страницы.
Проникновение: проникновение может быть достигнуто путем прямого проникновения в сеть или путем заражения хоста, который затем подключается к частной сети.
Heartbleed. Атака Heartbleed обманом заставляет серверы вывести информацию, хранящуюся в их памяти. Злоумышленники также могут получить доступ к закрытому ключу шифрования сервера. Это может позволить злоумышленнику расшифровать любые личные сообщения, отправленные на сервер, и даже выдать себя за сервер [1].

Существует множество причин, по которым обнаружение вторжений является важной частью общей системы безопасности. Во-первых, многие существующие системы и приложения разработаны и созданы без учета требований безопасности. Во-вторых, компьютерные системы и приложения могут иметь недостатки или ошибки конфигурации, которые злоумышленники могут использовать для атаки на систему или приложение. Поэтому превентивные методы могут оказаться не столь эффективными, как ожидалось. Системы обнаружения вторжений можно разделить на два класса: системы обнаружения сигнатур и системы обнаружения аномалий. Обнаружение на основании сигнатур — это метод, при котором IDS сравнивает проверяемые данные с известными образцами сигнатур атаки и создает оповещение безопасности в случае их совпадения. Так можно выявлять вторжения, которые основаны на ранее известных способах проникновения. Обнаружение на основании аномалий — метод, при котором IDS сравнивает активность в сети или на хосте с моделью корректного, доверенного поведения контролируемых элементов и фиксирует отклонения от нее. Этот метод позволяет выявлять новые угрозы [3].

На данный момент существует не так много решений на основе нейросетей, а многие встречающиеся из них, как правило, относятся к сетям прямого распространения. Из рассмотренных выше классов СОВ, решения, в основном, опираются на следующие технологии анализа, отображенные в таблице 1:

Таблица 1

Технологии анализа вторжений

Обнаружение на основании сигнатур

Обнаружение на основании аномалий

Сравнение сигнатуры данных, либо сигнатуры поведения с сигнатурой в обновляемой базе. Сигнатура может быть представлена также шаблоном или регулярным выражением;
Экспертные системы на основе правил.

Пороговые детекторы (реагирующие, например, на стабильное превышение загрузки CPU на сервере);
Статистические системы (например, Байесовские классификаторы, либо системы обучаемых классификаторов);
Поведенческий анализ;
Использование модели «искусственная иммунная система».

У данных решений есть свои проблемы:

– Сигнатурный поиск не реагирует на неизвестные атаки, и достаточно несильно больших изменений сигнатуры атаки для того, чтобы детектор её более не обнаружил.

– Для экспертных систем, основанных на правилах, также как и для сигнатурного поиска, требуется поддерживать актуальность базы.

– Для систем, основанных на правилах, незначительные вариации в последовательности действий при атаке могут повлиять на процесс сравнения «деятельность-правило» до такой степени, что атака не обнаруживается соответствующим механизмом обнаружения. Увеличение уровня отвлеченности у таких систем предоставляет частичное решение этой задачи, однако это сильно увеличивает число ложных срабатываний.

– Системы на основе правил зачастую не обладают достаточной гибкостью в структуре правил.

– Статистические системы не чувствительны к порядку следования событий (что, верно, не для всех существующих систем).

– Для них и для пороговых детекторов трудно задать пороговые значения отслеживаемых системой обнаружения атак характеристик.

– С течением времени, статистические системы могут быть переобучены нарушителями так, чтобы атакующие действия рассматривались как нормальные.

Были рассмотрены различные алгоритмы обнаружения аномалий, в таблице 2 представлены плюсы и минусы каждого из них. Обнаружение аномалий включает в себя контролируемые и неконтролируемые методы. Сравнительный анализ показал, что контролируемые методы обучения значительно превосходят неконтролируемые, если тестовые данные не содержит неизвестных атак. Среди контролируемых методов, наилучшая производительность достигается за счет нелинейных методов, таких как SVM, многослойный персептрон и методов, основанных на правилах. Неконтролируемые методы, такие как K-средних, SOM, и один класс SVM показывают более высокую производительность по сравнению с другими методами, хотя они различаются по эффективности обнаружения всех классов атак [4].

Таблица 2

Сравнительный анализ контролируемых и неконтролируемых методов

Методы	Преимущества	Недостатки
К-ближайших соседей	Легко реализуем, когда есть несколько предикторов. Применяется для построения моделей, которые обрабатывают нестандартные типы данных, такие как текст	Большие требования к объему памяти. Зависит от выбора функции подобия, которая используется для сравнения экземпляров. Отсутствие принципиального способа выбора, кроме как через перекрестную проверку или аналогичный способ. Дорогая вычислительная техника.
Нейронная сеть	Нейронная сеть может выполнять задачи, которые не выполнит линейная программа. Когда один элемент не справляется с задачей, метод может продолжить работу благодаря параллельной обработке данных. Нейронную сеть не нужно перепрограммировать. Может быть реализована в любом приложении.	Нейронная сеть нуждается в обучении. Высокое время обработки больших нейронных сетей
Дерево решений	Прост в реализации. Требует небольшой подготовки данных. Возможность обрабатывать как числовые и иные типы данных. Возможность проверки модели с использованием статистических тестов. Работает с большими данными в короткий промежуток времени.	При создании дерева решений могут получиться неоптимальные и очень сложные деревья, которые плохо обрабатывают данные. Существуют задачи, которые невозможно отобразить деревом решений, потому что оно не описывает ее полностью.
Самоорганизующиеся карты (SOM)	Прост в реализации. Работает с нелинейным набором данных. Визуализация многомерных данных на 1 или 2-мерном пространстве делает его уникальным, особенно для уменьшения размерности.	Требуется много времени для вычислений.
К-средних	Низкая сложность	Необходимость указания К. Чувствительны к помехам и посторонним точкам данных. Кластеры чувствительны к первоначальному значению.
Алгоритм нечеткой кластеризации	Позволяет точке данных быть в нескольких кластерах	Необходимо определить число кластеров С. Необходимо определить пороговое значение участников. Кластеры чувствительны к начальному заданию центроидов.
Машина опорных векторов	Нахождение оптимального разделения гиперплоскости. Обрабатывает большую размерность данных. Обычно работает очень хорошо.	Нуждается как в положительных, так и в отрицательных примерах. Необходимо выбрать хорошую функцию ядра. Требует много памяти и процессорного времени.
Аппроксимация	Можно легко изменить модель, чтобы адаптировать к различным распределениям наборов данных. Число параметров не увеличивается с увеличением обучающих данных	В некоторых случаях наблюдается медленная сходимость.

Нейронные сети имеют, как свои преимущества:

– Возможность анализа неполных входных данных или зашумлённого сигнала;

– Отсутствие необходимости формализации знаний (заменяется обучением);

– Отказоустойчивость: выход из строя некоторых элементов сети или разрушение связи не всегда делает сеть полностью неработоспособной;

– Возможность простого распараллеливания работы;

– Нейронные сети требуют меньшего вмешательства оператора;

– Существует вероятность обнаружения неизвестных атак;

– Сеть способна обучаться автоматически и в процессе работы;

– Возможность обработки многомерных данных без сильного увеличения трудоемкости.

Так и недостатки:

– Большинство подходов являются эвристическими и часто не приводят к однозначным решениям;

– Для построения модели объекта на основе нейросетей требуется предварительное обучение сети, что требует вычислительных и временных затрат;

– Для того, чтобы обучить сеть, надо подготовить обучающую и тестовую выборки, что не всегда просто;

– Обучение сети в ряде случаев приводит к тупиковым ситуациям: сети могут быть подвержены переобучению, либо не сходиться;

– Поведение сети не всегда может быть однозначно предсказуемо, что вносит риски ложных срабатываний, либо пропуска инцидентов;

– Трудно объяснить, почему сеть приняла то или иное решение (проблема вербализации). Следовательно, невозможно гарантировать повторяемость и однозначность получения результатов.

Несомненно, нейронные сети — это инновационное решение проблем в кибербезопасности. С помощью них можно проводить анализ угроз, предотвращать и предсказывать атаки, ускорять внутренние процессы системы. Для повышения качества работы сети в выявлении атак на веб-приложение нужен комбинированный подход на основе машинного обучения и сигнатурного анализа. Применение искусственных нейронных сетей в системах обнаружения вторжений является очень перспективным и интересным направлением, поскольку работа таких сетей обладает большей гибкостью в сравнении с заранее запрограммированными алгоритмами обнаружения вторжений. Некоторые из них способны обучаться не только при помощи специально подобранных наборов данных, но и в процессе работы в режиме реального времени, что увеличивает вероятность правильного срабатывания при обнаружении атаки.

Литература:

Кленин Дмитрий Владимирович, Максимова Елена Александровна Модель вторжений в информационную систему // NBI-technologies. 2018. № 3. URL: https://cyberleninka.ru/article/n/model-vtorzheniy-v-informatsionnuyu-sistemu
Кленин Дмитрий Владимирович, Максимова Елена Александровна Модель вторжений в информационную систему // NBI-technologies. 2018. № 3. URL: https://cyberleninka.ru/article/n/model-vtorzheniy-v-informatsionnuyu-sistemu
Явтуховский Е. Ю. Анализ систем обнаружения вторжений на основе интеллектуальных технологий //Технические науки: теория и практика. — 2016. — С. 27–30.
Кожевникова, И. С. Применение машинного обучения для обнаружения сетевых аномалий / И. С. Кожевникова, Е. В. Ананьин, А. В. Лысенко, А. В. Никишова. — Текст: непосредственный // Молодой ученый. — 2016. — № 24 (128). — С. 19–21. — URL: https://moluch.ru/archive/128/35376/
Заенцев И. В. Нейронные сети: основные модели. — 1999.
Круг П. Г. Нейронные сети и нейрокомпьютеры. — 2002.
Левченко К. М., Сыч А. А. Нейронные сети. — 2022.
Андриянов Н. А., Дементьев В. Е., Ташлинский А. Г. Обнаружение объектов на изображении: от критериев Байеса и Неймана–Пирсона к детекторам на базе нейронных сетей EfficientDet //Компьютерная оптика. — 2022. — Т. 46. — №. 1. — С. 139–159.

Обнаружение веб-атак с использованием машинного обучения

Библиографическое описание:

Ключевые слова

Похожие статьи

Неконтролируемые методы машинного обучения при...

Анализ систем обнаружения вторжений на основе...

Классификация IDS | Статья в журнале «Молодой ученый»

Применение машинного обучения для обнаружения сетевых...

Контролируемые методы машинного обучения как средство...

Исследование систем обнаружения вторжений

Исследование нейросетевых технологий для выявления...

Применение методов искусственного интеллекта в спорте

Развитие машинного обучения в фармакологии

Разработка и исследование методов для распознавания и анализа...