Применение метода логистической регрессии на основе датасета факторов риска заболевания раком | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 25 января, печатный экземпляр отправим 29 января.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №16 (463) апрель 2023 г.

Дата публикации: 19.04.2023

Статья просмотрена: 191 раз

Библиографическое описание:

Гель, А. Ю. Применение метода логистической регрессии на основе датасета факторов риска заболевания раком / А. Ю. Гель. — Текст : непосредственный // Молодой ученый. — 2023. — № 16 (463). — С. 6-9. — URL: https://moluch.ru/archive/463/101755/ (дата обращения: 16.01.2025).



В статье рассматривается логистическая регрессия, как один из методов машинного обучения. И применяется на основе данных больных раком.

Ключевые слова: логистическая регрессия, машинное обучение, классификация.

В современном мире неуклонно растет число людей, которые заболевают онкологическими заболеваниями. Поэтому наиболее остро стоит вопрос о преждевременном прогнозировании данного рода заболеваний. С развитием научно-технического прогресса появились методы, в частности, на основе машинного обучения, которые помогают прогнозировать эти заболевания на основе некоторых параметров.

Основная часть

Машинное обучение (англ. machine learning, ML) — класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение за счёт применения решений множества сходных задач [1].

Одной из задач, в которых может применяться машинное обучение, является классификация. В терминологии машинного обучения данная задача относится к обучению с учителем. То есть подразумевается, что данные уже разделены на классы, а признаки разделены на отдельные категории. Данные, на которых будет обучаться модель, называют обучающей выборкой.

Одним из методов классификации является логистическая регрессия. Логистическая регрессия — статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. [2]

График логистической кривой

Рис. 1. График логистической кривой

Логистическая регрессия подходит только для задач бинарной классификации. Другими словами, с помощью логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т. д.). В случае прогнозирования рака данная задача относится как раз к случаю бинарной классификации, так как необходимо разделять пациентов на две категории: болен раком или нет.

Набор данных был собран в «Университетской больнице Каракаса», Венесуэла. Данные включают в себя демографическую информацию, привычки и историю болезни 858 пациентов. Несколько пациентов решили не отвечать на некоторые вопросы из соображений конфиденциальности (пропущенные значения) [3].

Среди столбцов содержится переменная логического типа Dx:Cancer, которая содержит информацию о том, болен ли пациент раком. Данная переменная будет взята в качестве целевой. Модели необходимо будет «предугадывать» ее значение на основе остальных 35 признаков.

Из описания набора данных известно, что в нем содержатся пропущенные значения. Для применения метода логистической регрессии эти данные необходимо предварительно обработать.

Для машинного обучения и обработки данных будет использован язык программирования Python. А также библиотеки:

  1. Pandas
  2. Numpy
  3. scikit-learn

Первым шагом в обработке имеющегося набора данных будет удаление из него всех значений с пропусками.

После удаления всех строк, содержащих пропуски, необходимо разделить набор признаков для обучения и значения целевой переменной. А также на обучающую и тестовую выборки. Это нужно, чтобы обучение модели происходило на одних данных, а тестирование модели — на других, причем эти данные не должны пересекаться.

После выполнения обработки на выходе получится 4 множества с данными: Обучающие и тестовые выборки без ответов (X_train, X_test) и 2 множества ответов (y_train, y_test), которые разделены в том же соотношении, что и X_train, X_test. Соотношение, в котором будут разделены данные на обучающую и тестовую выборки, задается в параметре test_size.

Разделение данных на обучающую и тестовую выборки

Рис. 2. Разделение данных на обучающую и тестовую выборки

Теперь данные готовы к применению метода логистической регрессии. Для этого нужно применить библиотеку scikit-learn.

После обучения был получен массив данных predict, в котором содержится результат работы предсказания модели для тестовой выборки. Чтобы узнать, насколько точно модель справилась с предсказанием, нужно узнать значение метрик. Для этого можно применить функцию classification_report библиотеки scikit-learn.

Таблица 1

Основные метрики классификации.

precision

recall

f1-score

support

0

0.99

1.00

1.00

215

1

1.00

0.67

0.80

6

accuracy

0.99

221

macro avg

1.00

0.83

0.90

221

weighted avg

0.99

0.99

0.99

221

На основании полученных метрик можно сделать вывод, что модель верно определила всех тех людей, которых пометила как больных раком. Об этом свидетельствует метрика precision, которая определяет фактическую точность модели (долю совпавших ответов с фактическими). Однако ошибочно не дала этот диагноз некоторым людям, которые по итогу раком также больны. Данный вывод можно сделать по метрике recall, которая говорит о полноте правильных ответов, то есть о доле правильных ответов.

Заключение

В ходе данной статьи был рассмотрен один из методов машинного обучения — логистическая регрессия, применяемый для решения задачи классификации. Выполнена обработка данных, и на их основе было произведено машинное обучение. По полученным результатам предсказания модели вычислено значение метрик. Из них можно сделать вывод, что модель показала отличный результат. Это можно объяснить тем, что была взята малая выборка. Для более корректной оценки нужно рассматривать выборки с большим объемом данных.

Литература:

1. Машинное обучение. — Текст: электронный // Wikipedia: [сайт]. — URL: https://ru.wikipedia.org/wiki/ %D0 %9C %D0 %B0 %D1 %88 %D0 %B8 %D0 %BD %D0 %BD %D0 %BE %D0 %B5_ %D0 %BE %D0 %B1 %D1 %83 %D1 %87 %D0 %B5 %D0 %BD %D0 %B8 %D0 %B5 (дата обращения: 05.04.2023).

2. Логистическая регрессия. — Текст: электронный // Wikipedia: [сайт]. — URL: https://ru.wikipedia.org/wiki/ %D0 %9B %D0 %BE %D0 %B3 %D0 %B8 %D1 %81 %D1 %82 %D0 %B8 %D1 %87 %D0 %B5 %D1 %81 %D0 %BA %D0 %B0 %D1 %8F_ %D1 %80 %D0 %B5 %D0 %B3 %D1 %80 %D0 %B5 %D1 %81 %D1 %81 %D0 %B8 %D1 %8F (дата обращения: 05.04.2023).

3. Cervical cancer (Risk Factors) Data Set. — Текст: электронный // UCI Machine Learning Repository: [сайт]. — URL: https://archive.ics.uci.edu/ml/datasets/Cervical+cancer+ %28Risk+Factors %29 (дата обращения: 05.04.2023).

Основные термины (генерируются автоматически): логистическая регрессия, машинное обучение, тестовая выборка, данные, бинарная классификация, задача, значение метрик, модель, обработка данных.


Похожие статьи

Применение деревьев решений для оценки важности признаков на основе датасета больных раком

В статье автор рассматривает деревья решений как один из методов машинного обучения для решения задачи классификации. Метод применяется на наборе данных пациентов, больных раком шейки матки. С помощью деревьев решений производится оценка важности при...

Предсказание остатка денежных средств в банкомате с помощью методов машинного обучения

Рассмотрено использование методов машинного обучения для анализа данных, с целью предсказания остаточных средств в банкомате. Разработаны и протестированы несколько моделей для предсказания количества денежных средств в банкомате.

Прогнозирование методом машинного обучения

В статье авторы рассматривают прогнозирование с использованием искусственного интеллекта и машинного обучения, проблемы прогнозирования, методы машинного обучения и его возможности.

Анализ технологии создания систем классификации компьютерного зрения в медицине

В статье рассматриваются стратегии для применения различных инструментов машинного обучения и компьютерного зрения в медицине и ключевые инструменты, необходимые для этого, применительно к анализу данных с медицинскими снимками.

Аспекты использования различных методов распознавания лиц в современных системах безопасности

В статье авторы стараются обозреть существующие аспекты использования различных методов распознавания лиц в современных системах безопасности.

Парсинг сайтов как метод сбора данных для лингвистических исследований

В статье автор делится кодом на языке программирования Python для сбора лингвистических данных, а также проводит исследование с полученными данными, используя количественный метод анализа.

Характеристические подходы при распознавании изображений

В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.

Использование морфологического анализа при изучении интеллектуальных активов

В статье рассмотрено применение метода морфологического анализа при изучении интеллектуальных активов.

Метод мультиагентного глубокого обучения в решении социальных дилемм

В статье автор предлагает метод мультиагентного глубокого обучения для изучения сотрудничества, который позволит приблизиться к решению социальных дилемм.

Применение методов теории кооперативных игр в генетике

Анализ данных генной экспрессии требует подходящих инструментов для хранения и использования, соответствующих объемом данных; одной из последних и полезных технологий является технология микрочипов, которые позволяют хранить данные в единой матрице. ...

Похожие статьи

Применение деревьев решений для оценки важности признаков на основе датасета больных раком

В статье автор рассматривает деревья решений как один из методов машинного обучения для решения задачи классификации. Метод применяется на наборе данных пациентов, больных раком шейки матки. С помощью деревьев решений производится оценка важности при...

Предсказание остатка денежных средств в банкомате с помощью методов машинного обучения

Рассмотрено использование методов машинного обучения для анализа данных, с целью предсказания остаточных средств в банкомате. Разработаны и протестированы несколько моделей для предсказания количества денежных средств в банкомате.

Прогнозирование методом машинного обучения

В статье авторы рассматривают прогнозирование с использованием искусственного интеллекта и машинного обучения, проблемы прогнозирования, методы машинного обучения и его возможности.

Анализ технологии создания систем классификации компьютерного зрения в медицине

В статье рассматриваются стратегии для применения различных инструментов машинного обучения и компьютерного зрения в медицине и ключевые инструменты, необходимые для этого, применительно к анализу данных с медицинскими снимками.

Аспекты использования различных методов распознавания лиц в современных системах безопасности

В статье авторы стараются обозреть существующие аспекты использования различных методов распознавания лиц в современных системах безопасности.

Парсинг сайтов как метод сбора данных для лингвистических исследований

В статье автор делится кодом на языке программирования Python для сбора лингвистических данных, а также проводит исследование с полученными данными, используя количественный метод анализа.

Характеристические подходы при распознавании изображений

В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.

Использование морфологического анализа при изучении интеллектуальных активов

В статье рассмотрено применение метода морфологического анализа при изучении интеллектуальных активов.

Метод мультиагентного глубокого обучения в решении социальных дилемм

В статье автор предлагает метод мультиагентного глубокого обучения для изучения сотрудничества, который позволит приблизиться к решению социальных дилемм.

Применение методов теории кооперативных игр в генетике

Анализ данных генной экспрессии требует подходящих инструментов для хранения и использования, соответствующих объемом данных; одной из последних и полезных технологий является технология микрочипов, которые позволяют хранить данные в единой матрице. ...

Задать вопрос