На сегодняшний день одним из важных механизмов защиты информации является биометрическая аутентификация. Данная процедура проверяет подлинность предъявляемого идентификатора путем сравнения биометрического образа объекта с образом, загруженным в базу данных ранее. Примерами биометрии являются образы сетчатки глаза, отпечатков пальцев, геометрия лица, ладони и др. Каждый из этих методов имеет определенные уязвимости, как пример, отпечаток пальца можно легко подделать, а сканирование сетчатки глаза является дорогостоящей процедурой.
В последние годы развитие многочисленной медицинской диагностической аппаратуры контроля физиологических показателей человека открывает большие возможности для использования биометрических систем в целях аутентификации. Одним из таких примеров является электрокардиографический (ЭКГ) сигнал. Но прежде чем использовать данный сигнал в системах аутентификации, нужно понять особенность классификации данных сигналов по признакам объектов.
Этап обработки данных. Для выполнения задачи выделения отличительных признаков была использована среда MATLAB, а исходные данные для экспериментов были получены на специализированном интернет-портале PhysioNet [1].
Пример сигнала, взятого из базы данных PhysioBank, представлен на рис. 1.
Рис. 1. Пример ЭКГ сигнала, взятого с базы данных PhysioBank
Для улучшения эффективности работы системы аутентификации в дальнейшем и увеличения выборки все сигналы необходимо сжать, например, с помощью дискретного косинусного преобразования (ДКП) или дискретного преобразования Чебышева (ДПЧ) [2, 3, 4]. В итоге исходная выборка будет состоять из двух сжатых сигналов одного оригинального образа и коэффициентов ДКП и ДПЧ.
Сигнал разбивается на периоды (сегментация) и в качестве признаков извлекаются амплитуды волн R, S, T, Q, а у коэффициентов ДКП и ДПЧ максимальное, минимальное и среднее значения (рис. 2). В дальнейшем данные записываются в один вектор признаков, в конце которого записан класс (номер объекта).
Рис. 2. Извлеченные характеристики
Классификатор. Вкачестве классификатора был использован метод kNN. kNN (k — ближайших соседей) — это алгоритм [5], который классифицирует все доступные точки данных по показателям их сходства. В качестве метрики для определения сходства (расстояния) между двумя точками обычно используется евклидово расстояние:
(1)
Для конкретной точки данных вычисляются расстояния до других доступных точек, выбираются ближайшие k соседей и для каждого класса составляются условные вероятности. Точка данных будет принадлежать классу с наибольшей условной вероятностью. Пример работы алгоритма можно видеть на рис. 3. В случае если количество соседей k = 5, то текущая точка попадет в класс точек с треугольным маркером, в случае если же количество соседей k = 8, то точка попадет в класс точек, обозначенных квадратным маркером.
Рис. 3. Пример классификации kNN
В алгоритме число k — гиперпараметр, от выбора его значения зависит, как хорошо работает алгоритм. К примеру, если k = 1, то существует опасность неправильного сопоставления класса, т. к. ближайшая точка может оказаться ложным классом. А если же k >> 1, то все время “побеждать” будет самый популярный класс.
Этап классификации. Для эксперимента была использована база данных, состоящая из 495 векторов признаков, извлеченных из 42 записей ЭКГ (каждая по 10 секунд). Использовались 2 класса: “0” — относился к одному объекту, “1” — относился к другим разным объектам. Обучающая выборка — 80 %, тестовая — 20 %. Результаты классификаций при трех разных перемешиваниях данных представлены на рис. 4.
Рис. 4. График точности классификации тестовой выборки от количества соседей k (а, б, в — выборки при трех разных перемешиваниях данных)
Выводы. Эксперимент показывает, что при использовании выбранных извлеченных характеристик в худшем случае точность достигает 96 % (неправильно классифицировано 4 вектора из 99), а в лучшем — 99 % (неправильно классифицирована 1 запись из 99). Данные результаты говорят о том, что классификация по признакам ЭКГ возможна, т. е. в дальнейшем можно будет создать систему аутентификации, основанную на анализе ЭКГ.
Литература:
1. Интернет-портал PhysioNet — [Электронный ресурс]. URL: https://www.physionet.org; (дата обращения: 29.08.2018).
2. Кондрашев И. В. Сжатие биометрических сигналов с помощью дискретного косинусного преобразования и дискретного преобразования Чебышева. В сборнике: Безопасные информационные технологии Сборник трудов Девятой всероссийской научно-технической конференции. НУК «Информатика и системы управления». Под. ред. М. А. Басараба. 2018. С. 102–106.
3. Belina J. Allen, V.A., ECG data compression using the discrete cosine transform (DCT), Oct. 1992, pp. 687–690, Computers in Cardiology 1992.
4. D. Tchiotsop and S. Ionita, ECG Data Communication Using Chebyshev Polynomial Compression Methods, University of Pitesti, Romania, 2010.
5. C. M. Bishop, Pattern Recognition and Machine Learning (Information Science and Statistics), Springer, New York, NY, USA, 2007.