Библиографическое описание:

Клименко А. О. Применение самоорганизующихся структур Кохонена для анализа данных в медико-биологических исследованиях // Молодой ученый. — 2015. — №14. — С. 725-727.

Ключевые слова:искусственные нейронные сети, обучение без учителя, применение ИНС, метод Кохонена, обработка данных, медико-биологические исследования.

 

В медико-биологических исследованиях для обработки данных используются методы математической статистики [1]. Выводы математической статистики носят вероятностный характер и опираются на аппарат теории вероятностей. Выбор именно такого математического аппарата имеет много причин и среди них — необходимость учитывать слишком большое количество факторов, часто действующих или разнонаправленно, или опосредовано, или во взаимодействии.

Целью работы является создание использующего современные математические методы инструментария для выполнения анализа данных в медико-биологических исследованиях.

Схематически специфику статистической обработки данных в медико-биологических исследованиях можно представить следующим образом. Существует два фактора, влияющих на интересующую величину. Эта величина Y имеет стохастическую зависимость от первого фактора (назовём его A), которую можно было бы описать регрессионным уравнением, однако и вид и коэффициенты уравнения не постоянны, а зависят непосредственно от фактора A и опосредовано от второго фактора (фактора B).

Предлагаемый нами метод применения аппарата ИНС предусматривает построение классификации для генеральной совокупности случаев. Классы также называются образами. Образы строятся с помощью обработки неполных или искажённых изображений. Изображение объединяет множество случаев, имеющих одинаковое значение фактора B. Элементы входного слоя сети (сетчатки) рассчитываются по двум параметрам, их можно представить как двоичный элемент на плоскости, имеющий две координаты. По вертикальной (для определённости) оси откладываются возможные формы зависимости Y от A. Назовём j-ю форму Lj, а ось — осью L. На горизонтальной оси откладываются заданные точечно или интервально значения параметра A (ось A). Элемент входного слоя Sij=1, если доля случаев, которые подходят под описание Lj на интервале Ai не меньше заданного предела ɵ, иначе Sij =0. Сравнение двух математических аппаратов — математической статистики и ИНС — находится за рамками настоящего исследования. Однако, отметим одно преимущество, присущее данному конкретному применению ИНС. Оно состоит в том, что границы класса, которые по методу Кохонена строятся сами в порядке самообучения сети, очерчивают подмножество реальных случаев. Эти случаи могли до сих пор считаться ничем не связанными. Но принадлежность их к одному классу может указать на направление дальнейшего исследования и обработки данных в новом ключе.

Заметим, что числовая составляющая модели — это относительно большой массив весовых коэффициентов — чисел, не имеющих такой же прямой трактовки, как относительно небольшое количество коэффициентов регрессионного уравнения. Однако, если обратиться к алгоритму метода Кохонена, то веса, с нашей точки зрения, извлекают больше информации из данных, чем коэффициенты регрессии. Рассмотрим формулу корректировки весов для метода Кохонена. Как известно, каждое изображение своего рода набор аргументов в пользу каждого образа. Для образа, победившего в этом “споре” (образа i), корректируются веса связи с каждым j-м входным элементом Nj.

Wtij=Wt-1ij+α*(Nj-Wt-1ij), t-номер итерации                                                                 (1)

Учитывая, что скорость обучения α не больше 1, Nj =0 или Nj=1, начальные значения весов также должны быть меньше единицы и вообще достаточно малы в определённом смысле, получаем, что веса приближаются к входному слою. Это вполне очевидно, если допустить α=1. Каждое наблюдение вкладывает в модель максимум информации. Если наблюдённое значение является редким и скорее вносит информационный шум, чем помогает выявлению зависимостей, то оно автоматически нивелируется без участия исследователя. Самостоятельность алгоритма можно рассматривать как преимущество метода, когда задача обработки данных имеет дело с большими массивами факторов и небольшими объёмами выборок.

Рассмотрим примеры применения ИНС предложенным способом. Пример 1. Рассмотрим проблему, которая исследовалась в [2]. Целью авторов было определить влияние изменений цитокинового статуса, иммунорегуляции апоптоза и фиброза на прогрессирование ХСН ишемического генеза.

Используя данные, приведённые в [2], представим некоторые полученные авторами результаты в более приблизительном и сжатом виде (см. Таблицу 1). Для этого будем рассматривать несколько типов влияния цитокинов.

Ниже R(a,b) обозначает, что разница с контрольными значениями имеет тип a, зависимость от стадии болезни имеет тип b. Параметр a равен 1, если разница менее, чем в 3 раза, в остальных случаях a=2. Параметр b равен 1, когда разница для более поздней стадии больше, чем для более ранней стадии. Параметр b равен 2 в противоположном случае.

Таблица 1

Преобладающие формы зависимости по типам цитокинов

Цитокины, Aj

Формы зависимости, Li

Цитокины, Aj

Формы зависимости, Li

ИЛ-1β

R(1,2)

раИЛ-1β

R(1,1)

ИЛ -6

R(1,1)

ИФ-γ

R(2,1)

ИЛ -8

R(2,2)

ФНО-α

R(2,1)

 

Авторами [2] было построено регрессионное уравнение — логит аппроксимация зависимости риска прогрессирования ХСН от уровня в крови ФНО-α при повышении содержания ФНО-α выше 5 пг/мл. Данная аппроксимация показывает, что с ростом ФНО-α риск увеличивается почти линейно, только при больших значениях ФНО-α рост риска замедляется относительно роста фактора. Фактически зависимость риска прогрессирования ХСН от ФНО-α различается по типу на трёх интервалах значений ФНО-α. Однако такой подход находится за пределами математической статистики.

Применим ИНС и метод самоорганизации Кохонена. В качестве параметра B возьмём стадию ХСН. По оси A входного слоя отложим цитокины (типы), по оси L — тип изменений, пусть, например, L1=R(1,1), L2=R(1,2), L3=R(2,1), L4= R(4,4). Приняв ɵ =0.7, рассчитаем элементы входного слоя Sij. Примем, что Sij =1, если число случаев, когда i-й тип зависимости выполняется не менее, чем в 70 %-х случаев для j=го типа цитокинов. Sij =0 в противном случае.

Результат самоорганизации сети по правилу Кохонена должен дать классификацию, которая опишет взаимосвязь риска развития ХСН и цитокинов в форме набора весовых коэффициентов. Процедура распознавания позволяет для конкретного случая по содержанию цитокинов отдельных типов определить принадлежность случая классу, а значит стадию ХСН и возможные значения других цитокинов, что также имеет прогностическое значение.

Перейдём ко 2-му примеру. В [3] рассматривалось влияние остаточной концентрации препарата в плазме крови на появление нежелательных явлений у пациентов с хроническим миелоидным лейкозом, находящихся на терапии иматинибом с дозой 400, 600 и 800 мг/сут. Приведённые в [3] данные и выводы авторов позволяют нам сделать заключение, что концентрация иматиниба в плазме крови является важным, но сложным и вариабельным показателем. Вот некоторые зависимости, полученные в [3]. С увеличением терапевтической дозы число пациентов с нежелательными явлениями в процентах к численности контрольной группы сокращается, остаточная концентрация сначала растёт, потом относительно сокращается. Уровень остаточной концентрации у пациентов, при котором возникают нежелательные явления, сначала значительно растёт, а потом более медленно сокращается. Меняющаяся динамика является отражением взаимодействия и влияния множества факторов.

С нашей точки зрения, можно было бы выделить в отдельные классы разные терапевтические коридоры. В каждом классе каждый пациент под влиянием его собственных особенностей, имеет своё распределение вероятностей того, что проявится тот или иной тип зависимости уровня нежелательных явлений от остаточной концентрации. Если классификация, полученная в результате самообучения сети, объединит смежные значения терапевтического коридора в том смысле, что изображения, соответствующие соседним значениям коридора, будут относиться к одному классу, то это обстоятельство позволит рассматривать результат как имеющий отчётливый биологический смысл. Построенная модель может рассматриваться как вариант систематизации данных.

Выводы. Самоорганизующиеся структуры Кохонена могут быть использованы для обработки данных в медико-биологических исследованиях. Смысл изображения — в графическом представлении возможности осуществления для каждого типа зависимости по факторам, либо их интервалам. Изображение создаётся по набору выборочных данных, соответствующих фиксированным значениям выбранного для построения классификации фактора. Построенная классификация является сжатым и систематизированным описанием данных, в котором используются все собранные данные. Она может быть использована для получения прогнозов с широкими допущениями, требует большого объёма выборки и не использует аппарат теории вероятностей и математической статистики.

 

Литература:

 

1.                  Реброва О. Ю. Статистический анализ медицинских данных. — М.:Медиа Сфера, 2002. — 305 с.

2.                  Влияние имунного воспаления на прогрессирование хронической сердечной недасточности ишемического генеза. Яровова Е. С., Кастанаян А. А., Иванов И. В. Современные проблемы науки и образования. 2012. № 4. С. 27.

3.                  Оксенюк О. С., Куцев С. И., Шатохин Ю. В., Смирнова О. Б. Влияние концентрации иматиниба в плазме на проявление нежелательных явлений при терапии хронического миелоидного лейкоза.

4.                  Теоретические и прикладные аспекты современной науки. 2015. № 9–3. С. 59–64.

Обсуждение

Социальные комментарии Cackle