Разработка компьютерной модели сверхширокополосного канала связи | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 января, печатный экземпляр отправим 3 февраля.

Опубликовать статью в журнале

Автор:

Научный руководитель:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №47 (337) ноябрь 2020 г.

Дата публикации: 21.11.2020

Статья просмотрена: 11 раз

Библиографическое описание:

Митрофанова, Т. В. Разработка компьютерной модели сверхширокополосного канала связи / Т. В. Митрофанова. — Текст : непосредственный // Молодой ученый. — 2020. — № 47 (337). — С. 16-23. — URL: https://moluch.ru/archive/337/75451/ (дата обращения: 19.01.2021).



В статье уделяется внимание разработке компьютерной модели сверхширокополосного канала связи. В данной работе были проведены исследования метода классификации Random Forest для обнаружения аномалий в сетевом трафике сверхширокополосного канала связи. Для эффективного применения интеллектуального анализа данных в первую очередь были разобраны наиболее частые атаки на сетевые ресурсы СШП канала связи. В результате чего был выбран метод машинного обучения с учителем. Основываясь на различных источниках, был выбран универсальный метод классификации Random Forest, который эффективно справляется с нелинейной регрессией. Сравнение критериев эффективности модели без настроек и с применением изученных значений параметров демонстрируют колоссальный прирост эффективности более чем на 14 %, что подтверждает верность выбора параметров.

Ключевые слова: интеллектуальный анализ данных, компьютерная модель, сверхширокополосный канал связи, аномалии, машинное обучение, метод классификации Random Forest

The article focuses on the development of a computer model of an ultra-wideband communication channel. In this paper, studies of the Random Forest classification method were carried out to detect anomalies in the network traffic of an ultra-wideband communication channel. For the effective application of data mining, first of all, the most frequent attacks on the network resources of the UWB communication channel were analyzed. As a result, the supervised machine learning method was chosen. Based on various sources, a universal classification method Random Forest was chosen, which effectively handles non-linear regression. Comparison of the performance criteria of the model without settings and using the studied parameter values demonstrate a colossal increase in efficiency by more than 14 %, which confirms the correctness of the choice of parameters.

Keywords: data mining, computer model, ultra-wideband communication channel, anomalies, machine learning, Random Forest classification method

В настоящее время сверхширокополосные сигналы широко используются в современных высокоскоростных системах связи стандартов WiMax, LTE, при передаче информации цифрового телевидения (DVB-T) и радио (DRM, DAB), в системах радиолокации и т. д. В связи с ростом вычислительной мощности и количества узлов в любой сети увеличивается и количество данных, проходящих через них, что влечет за собой необходимость применения все более совершенных подходов к обеспечению информационной безопасности, при условии непрерывной безотказной работы информационной системы, что обеспечивает актуальность рассматриваемой темы.

В связи с тем, что в крупных предприятиях большая часть работы происходит с использованием сетевого взаимодействия, корпоративные сети все чаще подвергаются атакам злоумышленников [3, с. 12]. Анализ сетевого трафика сверхширокополосного канала связи на сегодняшний день является одним из самых перспективных направлений обеспечения сетевой безопасности.

В данной работе рассмотрена идея предотвращения атак путём анализа трафика с целью выявления аномалий, и последующее игнорирование таких пакетов. Для этого использован нелинейный регрессионный анализ сетевого трафика в перспективе в связке с устройствами сбора, накопления и обработки.

Для оценки качества алгоритмов классификации данных можно использовать различные критерии и показатели [2]. В основном они базируются на полноте ( recall ) и точности ( precision ), которые в свою очередь получаются из отношений ошибок второго и первого рода.

Ошибка первого рода («ложная тревога») заключается в определении положительного примера как отрицательного [1]. Например, классификация здорового пациента как больного.

Ошибка второго рода заключается в определении отрицательного примера как положительного. Например, классификация больного пациента как здорового. Минимизацией ошибок такого рода надо заниматься в первую очередь, т. к. они несут большую угрозу нежели ошибки первого рода.

В результате применения модели к исследуемым данным можно получить четыре исхода:

TP ( true positive ) — истинно-положительный — верная классификация положительного примера как положительного;

FP ( false positive ) — ложноположительный — ошибка первого рода, неверная классификация положительного примера как отрицательного;

TN ( true negative ) — истинно-отрицательный — верная классификация отрицательного примера как отрицательного;

FN ( false negative ) — ложноотрицаетльный — ошибка второго рода, классификация отрицательного примера как положительного.

Обычно эти исходы представляются в виде упрощенной таблицы ошибок (таблица 1).

Таблица 1

Матрица ошибок сверхширокополосного канала связи

Экспертная оценка

Положительная

Отрицательная

Оценка классификатора

Положительная

TP

FP

Отрицательная

FN

TN

Точность ( precision ) — это доля наблюдений, действительно принадлежащих данному классу относительно всех наблюдений, которые система отнесла к этому классу.

Полнота ( recall ) — это доля найденных классификатором наблюдений, принадлежащих классу относительно всех документов этого класса в тестовой выборке.

Дополнительно в качество метрик качества работы алгоритмов сверхширокополосного канала связи рассматриваются AUC ( area under curve — площадь под ROC ) и процент корректно распознанных наблюдений TPR .

ROC монотонно не убывает. Чем ближе кривая пролегает к точке (0,1), тем лучше работает классификатор. На рисунке 1 представлены результаты работы сверхширокополосного канала связи классификатора с низким уровнем качества (слева), у которого процент ошибки примерно равен 50, и классификатора с удовлетворительным уровнем качества (справа). Видны различия ROC в зависимости от уровня качества классификации и наглядно показано на какой вид данной кривой надо ориентироваться при оценке.

Вид ROC-кривой в зависимости от качества работы классификатора

Рис. 1. Вид ROC -кривой в зависимости от качества работы классификатора

Для того чтобы оценить AUC (площадь под кривой) введём дополнительное обозначение — отклики, присвоенные классификатором. Условно пометив два класса как {0,1}, получим:

Регрессионный нелинейный анализ, позволяет выявить нелинейные отношения между параметрами и дать приблизительные прогнозы высокой точности сверхширокополосного канала связи.

В работе применяется анализ данных, обеспечивающий автоматическое выявление скрытых закономерностей. Для этих целей использован алгоритм классификации Random Forest , в котором результат большого множества классификаторов усредняется и даёт результат более высокой точности.

Алгоритм Random Forest (случайный лес) является типичным представителем алгоритмов машинного обучения с учителем для классификации данных.

Введем следующие определения:

 множество признаков:

 множество значений признака:

 мера неоднородности множества:

Таким образом задаётся эмпирическое дискретное вероятностное распределение меток в подмножестве наблюдений [2].

Несмотря на то, что в середине выборки объекты разных классов сильно перемешаны, при помощи дерева решений эта проблема решается: на каждом шаге необходимо выбирать признак и значения порога, по которому происходит оптимальное разбиение по заданному критерию.

Для каждого типа прикладных задач используется свой критерий разбиения. От правильного выбора критерия зависит качество полученного решения.

Для решения задач классификации чаще прочих используется критерий iGain :

где C — множество классов рассматриваемой задачи, а — вероятность быть отнесенным к классу c для множества объектов S .

Для задач регрессии применяется аналогичный iGain критерий с использованием дисперсий:

После построения всех деревьев каждый тестовый объект 𝑧 𝑖 получает в качестве промежуточного ответа вектор меток, присвоенных ему каждым деревом, который преобразуется в финальную метку по методу простого голосования [2].

После рассмотрения всей теоретической базы перейдем непосредственно к разработке модели сверхширокополосного канала связи.

Для моделирования и тестирования моделей сверхширокополосного канала связи будет использоваться обучающее и тестовое множества наблюдений из комплекта NLS-KDD , которые, по содержанию можно разделить на пять групп:

 нормальные (позволительные, не атака);

DoS ( denial of service ) — атака, отказ в обслуживании, нацеленная на превышение количества одновременных подключений и исчерпыванию пропускной способности сервера; в выборке представлены шесть типов: land , teardrop , back , pod , neptune , smurf ;

probing — атака, производится в основном за счёт сканирования портов, и выяснения информации о машине; в выборке представлены четыре типа: satan , ipsweep , nmap , portsweep ;

R2L ( remote to local attack ) — атака, направленная на получение удалённого доступа к машине жертвы; в выборке представлены восемь типов: warezclient , guess_passwd , spy , imap , multihop , ftp_write , warezmaster;

U2R ( user to root ) — атака, направленная на локального пользователя системы, с целью получения прав суперпользователя благодаря уязвимостям операционной системы; в выборке представлены четыре типа: buffer_overflow , loadmodule , rootkit .

Обучающая выборка содержит 21 вид атак из 37 присутствующих в тестовой выборке. Известные атаки — это такие атаки, которые представлены в обучающем множестве, в то время как новые атаки — дополнительные атаки в тестовом множестве.

На рисунках 2 и 3 приведены гистограммы распределения типов данных в обучающей и тестовой выборках соответственно.

Гистограмма распределения типов данных в обучающей выборке

Рис. 2. Гистограмма распределения типов данных в обучающей выборке

Гистограмма распределения типов данных в тестовой выборке

Рис. 3. Гистограмма распределения типов данных в тестовой выборке

Особенности тестовой выборки:

 в тестовой выборке нет избыточных наблюдений, поэтому классификатор будет давать объективный результат;

 в тестовой выборке нет наблюдений, пересекающихся с обучающей выборкой, что не будет способствовать улучшению результата.

Все атрибуты обучающей и тестовой выборок приведены в таблице 2.

Таблица 2

Атрибуты выборок сверхширокополосного канала связи

Имя

Описание

Основные атрибуты

1

duration

Продолжительность подключения

2

protocol_type

Протокол соединения

3

service

Сетевая служба соединения

4

src_bytes

Количество исходящих байт

5

dst_bytes

Количество входящих байт

6

flag

Статус соединения

7

land

Если src_ip = dst_ip тогда 1, в противном случае 0

8

wrong_fragment

Число фрагментов с ошибкой

9

urgent

Срочные пакеты

Атрибуты, отражающие содержимое пакетов

10

hot

Индикатор: вход в директории, создание, выполнение

11

num_failed_logins

Неудачные попытки входа

12

logged_in

При успешном входе =1, в противном случае 0

13

num_compromised

Скомпрометированные состояния

14

root_shell

Получение root -прав, успех =1, в противном случае 0

15

su_attempted

Получение su root -прав, успех =1, иначе 0

16

num_root

root -доступ, количество

17

num_file_creations

Операции по созданию файлов

18

num_shells

Вызовы shell -оболочки

19

num_access_files

Количество доступов к файлам

20

num_outbound_cmds

Количество исходящих команд по FTP

22

is_guest_login

Если произошел гостевой вход =1

Атрибуты, отражающие характеристики пакетов

23

count

Число подключений к хосту за 2 секунды

24

serror_rate

Процент соединений с SYN -ошибками

Далее исследуем выбор наиболее информативных атрибутов. Для улучшения результатов, после всех проведённых экспериментов, очистим начальную выборку из 41 параметра, применив к ней метод главных компонент, чтобы оставить наиболее информативные атрибуты.

Процесс происходит в несколько шагов: 1.

 зафиксировать выборку — 41 параметр;

 вычислить средние значения:

 вычесть полученное в предыдущем шаге среднее значение из суммы значений по каждому атрибуту, что центрирует выборку в результате чего итоговый набор данных примет нулевое среднее значение;

 вычислить ковариационную матрицу — такая матрица будет двумерной поскольку данные двумерны:

 вычислить собственные векторы и собственные значения ковариационный матрицы: для получения значения информативности, возможно вычислить собственные вектора и собственные значения, так как матрица квадратная;

 сформировать выборку атрибутов: основываясь на полученных значениях отобрать атрибуты, значение функции для которых получилось наибольшим.

Полученные в результате всех преобразований атрибуты и называются главными компонентами. Полный их список приведен в таблице 3.

На рисунке 4 представлена гистограмма информативности атрибутов.

Таблица 3

Перечень главных компонент

Важность атрибута

Номер в изначальной выборке

Наименование атрибута

Величина собственного значения

1

5

src_bytes

9,913595

2

33

dst_host_srv_count

8,64

3

32

dst_host_count

5,380869

4

3

service

5,380742

5

2

protocol_type

5,379961

6

4

flag

5,37782

7

29

same_srv_rate

5,369393

8

34

dst_host_same_srv_rate

5,356421

9

36

dst_host_same_src_por_name

5,354023

10

12

logged_in

5,306561

11

6

dst_bytes

5,288926

12

37

dst_host_srv_diff_host_name

5,288926

13

35

dst_host_diff_serv_rate

5,258945

14

1

duration

5,117015

15

31

srv_diff_host_rate

3,201556

Гистограмма информативности атрибутов

Рис. 4. Гистограмма информативности атрибутов

Удаляя по одной компоненте, получаем график, изображенный на рисунке 5.

Качество модели при последовательном уменьшении количества главных компонент

Рис. 5. Качество модели при последовательном уменьшении количества главных компонент

Таким образом, было определено оптимальное количество главных компонент для эффективной работы модели, но полученные результаты не являются удовлетворительными, хоть и удалось поднять эффективность работы модели почти на 10 %. Зная оптимальное количество атрибут, было принято решение перебрать все главные компоненты, то есть обучить модель, используя все возможные сочетания без повторений.

Опираясь на ранее полученные результаты исследования параметров, перебор дал положительные результаты. Максимального обнаружения удалось достичь при следующем множестве атрибутов [5, с. 56]:

 duration;

 protocol_type;

 service;

 flag;

 src_bytes;

 dst_bytes;

 class.

При количестве деревьев равном 70, максимальная глубина дерева составила 12 узлов, переменных при делении узла было 3, а минимальное количество наблюдений на лист составило 5. Детальный разбор ошибок представлен в таблице 4.

Таблица 4

Сводная таблица матриц ошибок сверхширокополосного канала связи

Модель без настроек

Модель с настройками и методом главных компонент

A

B

A

B

Классификатор

9447

264

9255

456

A = normal

4143

8690

790

12043

B = anomaly

В таблице 5 приведено сравнение результатов двух моделей, без использования каких-либо настроек и метода главных компонент и с использованием настроек и метода главных компонент.

Таблица 5

Сравнение моделей сверхширокополосного канала связи

Корректно распознанные наблюдения

Некорректно распознанные наблюдения

AUC

Количество

%

Количество

%

Модель без настроек

18137

80,45

4407

19,55

0,959

Модель с настройками и методом главных компонент

21298

94,47

1246

5,53

0,971

Улучшение, количество

3161

0,012

Улучшение, %

14,021

1,2

Улучшение модели оказалось не всесторонним. При улучшении, уменьшение в 5,2 раза количества ошибок второго рода привело к возрастанию количества ошибок первого рода более чем в 1,5 раза.

Однако, изначально ошибок первого рода было 264, а ошибок второго рода, более серьёзных, около четырёх тысяч. Несмотря на это, общую эффективность модели удалось увеличить на 14 %. После завершения всех исследований становится очевидна эффективность метода главных компонент, который, по сути, работает с выборкой, обогащая её. Сам метод и его параметры способны незначительно улучшить результат классификации, не более чем на 2 %. Однако учитывая их количество и возможность их изменения, за счёт одних только параметров, корректно настроенных для данной выборки можно получить улучшение на ~5 %.

Литература:

  1. Проблемы и методики анализа трафика телекоммуникационных компьютерных сетей [Электронный ресурс]: Режим доступа: http://www.nsu.ru/archive/conf/nit/97/c8/node19.html
  2. Регрессионный анализ [Электронный ресурс]: Режим доступа: http://bibliofond.ru/view.aspx?id=20926
  3. Canty, M. J. Image Analysis, Classification and Change Detection in Remote Sensing: With Algorithms for ENVI/IDL and Python / M. J. Canty — Crc Press, 2019.
  4. Chen, Y. ID-Based Certificateless Electronic Cash on Smart Card against Identity Theft and Financial Card Fraud / Y. Chen, J. S. Chou // The International Conference on Digital Security and Forensics (DigitalSec2014). — The Society of Digital Information and Wireless Communication, 2019. — pp. 56- 67.
  5. Kovalev, S. M. Fuzzy model based intelligent prediction of objective events / S. M. Kovalev, A. V. Sukhanov, V. Styskala // Proceedings of 1st EuropeanMiddle Asian Conference on Computer Modelling. — 2018.
Основные термины (генерируются автоматически): сверхширокополосный канал связи, ROC, тестовая выборка, AUC, метод главных компонент, ошибка первого рода, ошибка второго рода, машинное обучение, противный случай, сетевой трафик.


Ключевые слова

интеллектуальный анализ данных, компьютерная модель, машинное обучение, сверхширокополосный канал связи, аномалии, метод классификации Random Forest
Задать вопрос