Применение моделей машинного обучения для поддержки принятия врачебных решений | Статья в сборнике международной научной конференции

Отправьте статью сегодня! Журнал выйдет 25 мая, печатный экземпляр отправим 29 мая.

Опубликовать статью в журнале

Автор:

Научный руководитель:

Рубрика: 7. Технические науки

Опубликовано в

LXXVIII международная научная конференция «Исследования молодых ученых» (Казань, март 2024)

Дата публикации: 25.03.2024

Статья просмотрена: 23 раза

Библиографическое описание:

Бондаренко, В. А. Применение моделей машинного обучения для поддержки принятия врачебных решений / В. А. Бондаренко. — Текст : непосредственный // Исследования молодых ученых : материалы LXXVIII Междунар. науч. конф. (г. Казань, март 2024 г.). — Казань : Молодой ученый, 2024. — С. 1-8. — URL: https://moluch.ru/conf/stud/archive/512/18401/ (дата обращения: 13.05.2024).



В статье автор исследует возможности применения моделей машинного обучения для поддержки врачебных решений при проведении медицинской диагностики по симптомам и фотоснимкам дерматологических заболеваний. Спроектированы и разработаны модели на основе решающих деревьев и сверточных нейронные сетей, показывающие высокий процент точности прогнозов, на основе полученных моделей спроектирована интеллектуальная рекомендательная система. Объектом исследования являются модели машинного обучения, предметом исследования является процесс формирования как классических моделей, так и на основе искусственных нейронных сетей. Методами исследования являются нейросетевое моделирование, теория нейронных сетей, теория искусственного интеллекта, системный анализ. Результатом исследования являются модели, с высокими показателями качества, используемый при проведении медицинской диагностики.

Ключевые слова: нейронные сети, проектирование, машинное обучение, модели, поддержка решений.

Исследуемой областью является применение современных методов машинного обучения для задач медицинской диагностики. Один из методов решения подобных проблем заключается в использовании технологий интеллектуального анализа данных с целью повышения качества предоставляемой медицинской помощи [1], разработка моделей машинного обучения является одним из способов достижения этой цели и состоит из нескольких последовательных этапов:

– получить, описать данные, методы их получения;

– провести предварительную обработку, трансформацию, анализ и очистку данных;

– описать итоговые данные и визуализировать их;

– описать методы машинного обучения;

– провести выбор моделей машинного обучения;

– подобрать оптимальные гиперпараметры созданной модели;

– обучить модель на тренировочной выборке;

– оценить качество полученной модели;

– провести анализ результатов работы модели;

– визуализировать данные;

– интерпретировать полученные результаты и описать возможные области ее применения.

Особый интерес для сферы здравоохранения представляют системы диагностики заболеваний, так как высокая загруженность врачей или недостаточный опыт молодых специалистов могут ограничивать их возможности в принятии верных решений [1].

Для диагностики графических изображений эффективно применяются сверточные нейронные сети, которые позволяют разрабатывать системы на базе искусственного интеллекта, способные автоматически определить вероятность наличия той или иной болезни на основе фотоснимка [2]. С помощью нейронной сети происходит автоматическое выделение наиболее важных признаков и скрытых закономерностей среди множества данных. На сегодняшний день нейронные сети помогают врачам при постановке диагнозов, устраняют помехи с биологических сигналов, выявляют наиболее важные данные согласно определенным условиям. Глубокие нейронные сети успешно решают задачи интерпретации патологий на медицинских снимках и декодирования электрокардиограмм. Кроме того, они способны выявить различные виды рака, кровоизлияния, кожные заболевания, переломы и многие другие болезни [3].

Исследуемая тема уже достаточно изучена, в статье под названием «Применение аналитики больших данных и методов машинного обучения в отечественном здравоохранении» А. Н. Азаров обнародовал великий потенциал и перспективы использования аналитики больших данных и других методик машинного обучения в нашей медицинской системе, в работе «Перспективы использования нейронных сетей и глубокого машинного обучения в медицине» А. В. Гусев описывает особенности применения машинного обучения для подтверждения диагноза и прогнозирования исходов заболеваний [4]. Игорь Кононеко в работе “Машинное обучение для медицинской диагностики: история, современное состояние и перспективы” рассказывает об областях и применения искусственного интеллекта и нейронных сетей в прикладных задачах медицинской диагностики [5].

Сложностью в ходе создания НС является недостаточность выборки для обучения, поскольку для обучения НС необходимы большие объемы данных, тогда как в медицинской области отсутствует достаточное количество выборки данных или медицинских изображений, для расширения выборки используют подход аугментации, обогащения данных, путем генерации изображений, на основе имеющихся данных.

В качестве метрики оценки качества моделей используется accuracy доля верных ответов, в зависимости от сбалансированности целевых классов, если классы сбалансированы, то выбирается accuracy, если нет, то выбирается recall полнота.

Важным этапом в построении моделей МО является процесс сбора и обработки данных. Для решения поставленных задач используются открытые медицинские наборы данных из kaggle [6]. Для обработки текстовых показателей были получены файлы в формате csv. Для обработки графических фотоснимков были получены изображения в формате jpeg. Первый набор состоит из 131 симптома и болезней. Второй набор был получен из открытого медицинского источника ISIC NAM10000 [7] и содержит 10015 изображений дерматологических заболеваний. На рис. 1 представлен набор по симптомам, на рис. 4 показан набор дерматологических фотоснимков.

Набор данных по симптомам и диагнозам

Рис. 1. Набор данных по симптомам и диагнозам

Набор фотоснимков дерматологических заболеваний

Рис. 2. Набор фотоснимков дерматологических заболеваний

В ходе предварительной обработки и трансформации данных были выполнены следующие действия: удаление дубликатов записей, обработка пропущенных значений, преобразование типов данных, обработка аномальных значений, анализ сбалансированности целевых классов, проведение аугментации данных по максимальному классу, преобразование категориальных переменных, кодирование целевых классов, преобразование изображений в векторы тензоров, разделение выборки на обучающую, тестовую и валидационную, нормализация и стандартизация тензоров изображений, изменение размерности изображений.

В качестве базового языка разработки моделей используется python 3.11, поскольку в нем имеется множество готовых моделей машинного обучения и также имеются средства для работы с данными, такие как библиотека pandas.

Также в ходе разработки моделей будут использованы библиотеки numpy, math, Seaborn, matplotlib, PIL, glob, google.colab.drive, imutils. Разработка велась на удаленном сервере Google Colaboratory, с графическим аппаратным ускорителем. Для решения задачи многоклассовой классификации использовались следующие методы RandomForestClassifier, XGBClassifier, KneighborsClassifier, LGBMClassifier, GaussianNB, DecisionTreeClassifier, Kmeans. На рис. 3 показаны результаты обучения моделей.

Точность прогноза моделей

Рис. 3. Точность прогноза моделей

Лучший результат показала модель на основе решающего дерева

Полученную модель мы обучили и проверили на тестовом наборе. Для второй модели была спроектирована и разработана архитектура сверточной нейронной сети (СНС), на рис. 4 показана архитектура сети.

Эффективная архитектура СНС Эффективная архитектура СНС Эффективная архитектура СНС Эффективная архитектура СНС

Рис. 4. Эффективная архитектура СНС

Полученная архитектура скомпилирована и обучена на 30 эпохах и размером батча равным 10. В качестве оптимизатора выбран SGD, функция потерь categorical_crossentropy. В результате обучения модели удалось достичь показателя точности в 79 %, что на 5 % выше чем у ансамбля с предобученными архитектурами. На рис. 5 показана функция изменения точности в процессе обучения.

Изменение точности в процессе обучения эффективной СНС

Рис. 5. Изменение точности в процессе обучения эффективной СНС

Таким образом, мы можем сделать вывод, что процесс проектирования оптимальной архитектуры нейросети является неотъемлемой частью в повышении качества и точности разрабатываемых классификаторов уже на начальных этапах обучения. Полученные модели будут использованы для разработки интеллектуальной рекомендательной системы поддержки врачебных решений при проведении медицинской диагностики по симптомам и входным фотоснимкам. На рис. 6, 7 показаны окна спроектированного интерфейса системы поддержки врачебных решений.

Интерфейс диагностики по фотоснимкам

Рис. 6. Интерфейс диагностики по фотоснимкам

Интерфейс диагностики по симптомам

Рис. 7. Интерфейс диагностики по симптомам

Таким образом, мы исследовали возможности применения моделей машинного обучения в процессе медицинской диагностики, модели способны прогнозировать риски заболеваний и рассчитывать вероятность исхода, определять диагноз по выявленным симптомам и давать оперативные рекомендации к лечению, а также способным анализировать медицинские фотоснимки для выявления диагноза заболеваний с очень высокой точностью.

Литература:

  1. Сахибгареева М. В., Заозерский А. Ю. Разработка системы прогнозирования диагнозов заболеваний на основе искусственного интеллекта // Вестник РГМУ. 2017. № 6. URL: https://cyberleninka.ru/article/n/ razrabotka-sistemy-prognozirovaniya-diagnozov-zabolevaniy-na-osnove-iskusstvennogo-intellekta (дата обращения: 14.03.2024).
  2. Мелерзанов А., Гаврилов Д. Диагностика меланомы кожи с помощью сверточных нейронных сетей глубокого обучения // Врач. 2018. № 6. URL: https://cyberleninka.ru/article/n/diagnostika-melanomy-kozhi-s-pomoschyu-svertochnyh-neyronnyh-setey-glubokogo-obucheniya (дата обращения: 15.03.2024).
  3. Лукашевич М. М. Нейросетевой классификатор для определения диабетической ретинопатии по изображениям сетчатки //Системный анализ и прикладная информатика. — 2023. — №. 1. — С. 25–34.
  4. Бойко Н. К. Обзор литературных источников для решения задачи планирования в страховой медицинской организации методами машинного обучения // Актуальные исследования. 2020. № 11 (14). С. 21–24.URL:https://apni.ru/article/886-obzor-literaturnikh-istochnikov-dlya-resheniya (дата обращения: 10.03.2024).
  5. Kononenko I. Machine learning for medical diagnosis: history, state of the art and perspective //Artificial Intelligence in medicine. — 2001. — Т. 23. — №. 1. — С. 89–109.
  6. Disease Predictions. [Электронный ресурс]. — URL: https://www.isic-archive.com (дата обращения 12.03.2024).
  7. The International Skin Imaging Collaboration. [Электронный ресурс]. — URL: https://www.isic-archive.com (дата обращения 12.03.2024).

Ключевые слова

нейронные сети, проектирование, модели, машинное обучение, поддержка решений