Исследование нейросетевых технологий для выявления инцидентов информационной безопасности

Марков Роман Андреевич; Бухтояров Виктор Владимирович; Попов Алексей Михайлович; Бухтоярова Наталья Александровна

Today, intrusion detection systems (IDS) are typically software or hardware and software solutions that automate the process of monitoring events occurring in a computer system or network. As the number of different sources of unauthorized entries into the wrong computer networks in recent years has increased significantly, as a result of increased and the load on the IDS. The number of stations to monitor has increased, what was the reason for expansion of the database, the analysis of which included in the scope of operation of the subsystems IDS. In this connection, the task was to reduce the load or optimized the operation of the subsystem analysis, the effectiveness of which is the result of the work of the IDS. In the analysis phase takes place detection of deviations of parameters monitoring anomalies in the analyzed parameters, but one of the most important performance indicator subsystem analysis is to identify information security incidents. In order to achieve an increase in performance to identify incidents need to optimize the processing of the resulting amount of data acquisition subsystem of the data, which also is part of the IDS. The paper is devoted to finding and reasoning methods to improve the detection rate of information security incidents within the existing intrusion detection systems (IDS). To improve the performance of intrusion detection systems we suggest to use pre-processing of the received monitoring data and to include it in an intrusion detection process as an obligatory step.The problem of detection of incidents can be represented as the problem of classification using an array of monitoring data. One of the tools for solving this problem are artificial neural networks. In this paper we analyzed the types and principles of IDS, intrusion detection methods, the problem of classification, basic principles of neural networks. Based on the analysis an experimental study was carried out. The comparative effectiveness of information security incidents identification using the described approach and alternative approaches was analyzed.

Keywords: intrusion detection systems, information security, neural networks, classification of network attacks.

Введение. Системы обнаружения сетевых вторжений (СОВ) и выявления признаков компьютерных атак на информационные системы уже давно применяются как один из необходимых рубежей обороны информационных систем. В настоящее время системы обнаружения вторжений обычно представляют собой программные или аппаратно-программные решения, которые автоматизируют процесс контроля событий, протекающих в компьютерной системе или сети, а также самостоятельно анализируют эти события в поисках признаков проблем безопасности. Поскольку количество различных источников несанкционированных проникновений компьютерные сети за последние годы значительно увеличилось, как следствие возросла и нагрузка на СОВ. Увеличилось количество участков для наблюдения, что и стало причиной расширения базы данных, анализ которой входит в задачи подсистем функционирования СОВ, в связи с этим более актуальной становится задача по снижению нагрузки функционирования подсистемы анализа, эффективность работы которой, что определяет эффективность работы СОВ.

На этапе анализа происходит выявление отклонений, аномалий параметров, для которых осуществляется мониторинг. Так же на этапе анализа происходит оценка основного показателя эффективности подсистемы анализа — показателя надежности выявления инцидентов информационной безопасности. Для того, что бы достичь увеличения показателей эффективности выявления инцидентов необходимо сократить объем получаемых данных от подсистемы сбора информации, которая так же входит в структуру СОВ. Так как чрезмерный объем поступающей «сырой» информации приводит к снижению эффективности работы системы из-за значительно возрастающего времени на обработку, возрастающих требований к вычислительным мощностям соответствующего оборудования.

Один из методов обработки информации с последующим обобщением — это искусственные нейронные сети (ИНС). ИНС позволяют достичь хороших результатов в решении таких сложных инженерных задач как распознавание образов, классификация, прогнозирование [1]. В связи со способностью искусственных нейронных сетей в процессе обучения выявлять сложные зависимости [2] между входными и выходными данными, которые отсутствовали в явном виде, являются привлекательным инструментом для решения задач защиты компьютерной информации. Таким образом, повышение эффективности выявления инцидентов информационной безопасности с помощью ИНС совместно со статистическими методами анализа данных, в рамках функционирования одной системы, является актуальной научно-технической задачей.

Методы обнаружения инцидентов. Задача обнаружения инцидентов информационной безопасности сводится к задаче классификации на предоставляемом массиве данных. Поэтому основным критерием для выбора метода обнаружения является его способность решить задачу классификации. Выделяют следующие методы обнаружения атак на ИС: анализ систем состояний, графы сценариев атак, экспертные системы, методы, основанные на спецификациях, сигнатурные методы, нейронные сети, иммунные сети, статистический анализ, кластерный анализ, поведенческая биометрия. В рамках представленного в статье исследования в качестве базовой технологии анализа данных для СОВ применялись ИНС.

Подобный сценарий подходит и к реализации обнаружения сетевых атак, т. к. он связан с выделением большого числа признаков, по которым можно проводить классификацию. Так, например, в общедоступной базе KDDCup ‘99 [3], содержащей примерно 5 миллионов классифицированных по 22 типам экземпляров атак (классов), используется 41 признак. При этом атаки делятся на 4 основные категории: DoS, U2R, R2L и Probe. Все признаки информативно неравнозначны, причем уточнить их истинную значимость можно только после проведения дополнительных исследований. Задача выявления существенно значимых признаков является неотъемлемой частью процесса распознавания.

Для решения задачи удалённой сетевой атакой будем называть информационное разрушающее воздействие на распределённую компьютерную сеть, осуществляемое программно по доступным каналам связи [4]. Конкретные разновидности сетевых атак представлены в базе данных (БД) KDDCup ‘99. В качестве обучающего множества выступает база KDD-99.

DoS атаки — это сетевые атаки, направленные на возникновение ситуации, когда на атакуемой системе происходит отказ в обслуживании. Данные атаки характеризуются генерацией большого объема трафика, что приводит к перегрузке и блокированию сервера. ВыделяютшестьDoSатак: back, land, neptune, pod, smurf, teardrop [4].

U2R атаки предполагают получение зарегистрированным пользователем привилегий локального суперпользователя (сетевого администратора). Выделяют четыре типа U2R атак: buffer_overflow, loadmodule, perl, rootkit [4].

R2L атаки характеризуются получением доступа незарегистрированного пользователя к компьютеру со стороны удаленного компьютера. Выделяют восемь типов R2L атак: ftp_write, guess_passwd, imap,multihop, phf, spy, warezclient, warezmaster [4].

Probe атаки заключаются в сканировании сетевых портов с целью получения конфиденциальной информации. Выделяют четыре типа Probe атак: ipsweep, nmap, portsweep, satan. Согласно источнику [5] для обнаружения и классификации 9 из 22 типов атак достаточно 29 параметров, характеризующих сетевые соединения.

Обычно для обучения и тестирования ИНС имеющиеся экспериментальные данные разбиваются на обучающую БД и контрольную БД. В проведённых исследованиях в качестве обучающей БД с параметрами сетевых соединений, представляющая собой 10 % от исходного KDD CUP. 99. Записи из полной контрольной БД подавались на обученные НС. На основании результатов этого этапа определяется статистика и даётся анализ эффективности НС по критериям качества распознавания типов аномальных соединений и наличию ложных срабатываний (когда нормальное соединение принимается за атаку) [6].

Таблица 1

Состав KDD CUP. 99

Группа	Тип атаки	Количество эталонов
Normal	normal	972781
Dos	Back	2203
U2r	buffer_overflow	30
R2l	ftp_write	8
R2l	guess_passwd	53
R2l	Imap	12
Probe	ipsweep	12481
Dos	Land	21
U2r	loadmodule	9
R2l	multihop	7
Dos	neptune	1072917
Probe	Nmap	2316
U2r	Perl	3
R2l	Phf	4
Dos	Pod	264
Probe	portsweep	10413
U2r	rootkit	10
Probe	Satan	15892
Dos	smurf	2807886
R2l	Spy	2
Dos	teardrop	979
R2l	warezclient	20
R2l	warezmaster	1020

В результате выборки лишь у 6 из 22 классов атак есть необходимое количество эталонов — это norma, ipsweep, neptune, satan, smurf, portsweep.

Для сокращения размера данных при обучении и анализе сетевого трафика предлагается использовать метод многофакторного анализа (ANOVA) [7]. Основным критерием отбора параметров является уровень статистической значимости [8].

Таким образом, после проведения многофакторного анализа число параметров сократилось с 41 до 12 (см. рис. 1).

Рис. 1. Зависимость количества информации от факторов

Как видно из рис. 1 в первых фактора содержится 99 % информации о сетевом трафике. В остальных 29 компонентах содержатся только 1 % информации, и из соображения целесообразности их можно исключить анализа. В качестве инструмента для проведения исследования использовался пакет статистического анализа STATISTICA 8. Данное ПО предоставляет обширный выбор основных статистик в едином пакете в сочетании с мощностью, производительностью и простотой использования технологии STATISTICA. STATISTICA — это система статистического анализа данных, включающая широкий набор аналитических процедур и методов [9].

Использование метода ANOVA выявило тот факт, что для успешного анализа сетевого трафика достаточно использовать параметры, в которых содержится 99 % информации о сетевом соединении, а не 41 параметр. Это позволит существенно ускорить как процесс обучения ИНС, так и процесс анализа сетевого трафика.

Решения задач классификации атак с помощью ИНС на представленном наборе данных.В результате анализа сетевого трафика методом ANOVA было выявлено 12 ключевых параметров, которые являются входными для ИНС. Данные 12 параметров подаются на скрытый слой ИНС, где и происходит определение соединения к классу сетевой атаки или к классу безопасного соединения.

Формирование обучающей выборки

В рамках данной статьи в качестве ИНС использовалась структура нейронной сети Кохонена [10] с одним входным слоем, одним скрытым слоем, состоящим из нейронов Кохонена, и выходным слоем. В качестве входных данных для нейросетевых детекторов использовались данные, взятые из базы данных KDD Cup1999 Data [3].

Для обучения предложенного ИНС используется обучающая выборка, состоящая из 80 % соединений одного из типов атак и 20 % нормального соединения, т. е. соотношение атак к нормальным соединениям равняется четыре к одному [11].

Такое соотношение было получено экспериментальным путем и показало наилучшие результаты классификации сетевого трафика (табл.2).

Таблица 2

Результаты экспериментов составления обучающей выборки

*Тип* атаки	5/1	4/1	3/1	2/1	1/1
Dos	95,7 %	98,0 %	97,5 %	96,4 %	96,0 %
Probe	59,2 %	65,1 %	63,9 %	62,1 %	61,5 %
R2L	32,4 %	36,9 %	34,8 %	33,9 %	33,0 %
U2R	16,8 %	20,8 %	19,0 %	18,7 %	17,1 %

Было проведено 5 экспериментов. В каждом эксперименте генерировались 20 нейросетевых детекторов. В первом эксперименте для обучения нейронной сети использовалась такая обучающая выборка, в которой соотношение нормальных сетевых соединений к атакам составляло пять к одному. Во втором эксперименте соотношение классов сетевых соединений равнялось четыре к одному, в третьем — три к одному, в четвертом — два к одному. В последнем эксперименте обучающая выборка состояла из 50 % нормального трафика и 50 % сетевых атак. Сгенерированные детекторы обучались и классифицировали неизвестные образы. Результаты классификации представлены в таблице 2. Как видно из таблицы 2, наилучший результат показали те детекторы, для обучения которых использовалась выборка, состоящая из 80 % сетевых атак и 20 % нормальных сетевых соединений.

Исходя из того, что классы сетевого трафика распределены в обучающей выборке в соотношении 80 % сетевых атак и 20 % нормальных соединений, то это налагает определенные требования на распределение нейронов Кохонена в скрытом слое ИНС. Для корректного функционирования выбранной нейронной сети необходимо, чтобы соотношение между количеством нейронов в слое Кохонена, характеризующие различные классы, должно быть кратным соотношению четыре к одному [12]. Таким образом, соотношение нейронов в скрытом слое должно быть равным.

, (1)

где f — первые нейроны слоя Кохонена, активность которых характеризует сетевую атаку; l — последние нейроны слоя Кохонена, активность которых характеризует нормальное сетевое соединение [11].

В результате, если количество нейронов Кохонена в скрытом слое равняется десяти, то количество нейронов, отвечающих за сетевую атаку, будет равным f = 8, а количество нейронов, отвечающих за нормальное соединение, будет равным 1 = 2.

Результаты обнаружения сетевых атак представлены в таблице 3.

Таблица 3

Результаты обнаружения сетевых атак с ANOVA и без

	norma	ipsweep	neptune	satan	smurf	portsweep	Среднее
ANOVA+ сеть Кохонена	99,61 %	97,95 %	100 %	98,46 %	100 %	99,02 %	99,17 %
Сеть Кохонена	99,01	48,72 %	100 %	98,03 %	100 %	98,01 %	90,62 %
Улучшение	0,60	49,23 %	0 %	0,43 %	0 %	1,01 %	8,54 %

Как видно из полученных результатов, качество обнаружения удалось значительно увеличить благодаря применению метода ANOVA к параметрам сетевого трафика. Так прирост в качестве обнаружения в среднем 8,54 %. Также, за счет того, что для анализа сетевого трафика теперь используются не все 41 параметр, а 12, удалось значительно повысить быстродействие системы в целом, что является важным критерием для систем обнаружения вторжений.

Исследование проводилось на стационарном ПК AMDAthlon64 X2 Dual Core Processor 4200+, память ОЗУ 2,00 ГБ, ОС Windows 7 32-х разрядная. Процесс построение структуры и обучение нейронной сети занимал приблизительно 18 часов. Подобные исследования проводились зарубежными и отечественными исследователями результаты представлены в сравнительной таблице (таб. 4).

Таблица 4

Сравнительная таблицам методов обнаружения атак

	norma	ipsweep	neptune	satan	smurf	portsweep	Среднее
ANOVA+ сеть Кохонена	99,61 %	97,95 %	100 %	98,46 %	100 %	99,02 %	99,17 %
PCA + Сеть прямого распространения	99,91 %	91,84 %	100 %	98,73 %	100 %	97,63 %	98,01 %
Расстояние Эвклида-Махаланобиса	99,46 %	91,91 %	99,99 %	50,96 %	99,99 %	34,41 %	79,45 %

Заключение. В данной работе в качестве нейросетевого детектора для обнаружения сетевых атак выбрана многослойная нейронная сеть с входным слоем, одним скрытым слоем, состоящим из нейронов Кохонена, и выходным слоем. Для обучения нейросетевого детектора используется обучающая выборка, состоящая из 80 % соединений, относящихся к сетевым атакам, и 20 % соединений, относящихся к нормальным соединениям. Также, представлено применение метода многофакторного анализа (ANOVA) для сокращения размера данных для анализа сетевого трафика с целью выявления сетевых атак. ПрименениеANOVAпозволило повысить качество обнаружения сетевых атак, а также повысить быстродействие системы за счет сокращения анализируемых данных. По результатам сравнения можно сделать вывод, что средняя эффективность по выявлению 6 представленных типов атак с помощью статистического предобработки ANOVAи нейронной сети Кохонена эффективнее на 1,16 %, чем дуэт PCA и сети прямого распространения [13], Так же на 19,72 % эффективнее, чем метод «Расстояние Эвклида-Махаланобиса» [14] [15].

Литература:

Головко В. А. Нейронные сети: обучение, организация, применение. Москва, ИПРЖР, 2001, 256 с.
Хайкин С. Нейронные сети: полный курс. Москва, Вильямс, 2006, 1104 с.
KDD Cup 1999 Data The Third International Knowledge Discovery and Data Mining Tools Competition. [Электронный ресурс] URL: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html (дата обращения 09.10.2014).
Kohonen T. Sell-organised formation of topologically correct feature maps. Springer, 2010, 516 p.
Комар М. П. Нейросетевой метод идентификации компьютерных атак // Оптико-электронные информационно-энергетические технологии 2010, № 2, С. 105–109
Jolliffe, I. Principal component analysis. Springer, 2010. 516 p.

Молодой учёный

Исследование нейросетевых технологий для выявления инцидентов информационной безопасности

Исследование нейросетевых технологий для выявления инцидентов информационной безопасности

Молодой учёный