В статье автор демонстрирует результаты, достигнутые в проводимом им исследовании, связанным с разработкой алгоритма, решающего задачу оценивания степени поражения легких при COVID-19 по данным компьютерной томографии с использованием нейронных сетей.
Ключевые слова: анализ медицинских изображений, семантическая сегментация, вирусная пневмония, сверточные нейронные сети, архитектура U-Net, архитектура SegNet.
Вирусная пневмония является одним из осложнений, возникающих при коронавирусной инфекции. Пандемия COVID-19, развернувшаяся в 2020 году, показала, что качество, скорость и точность автоматизированной диагностики вирусной пневмонии на снимках компьютерной томографии оставляет желать лучшего, так как даже опытные специалисты в условиях колоссальной нагрузки подвержены «человеческому фактору».
Применяемые сегодня автоматизированные системы диагностики патологии, предусматривают диагностирование изменений легочной ткани по типу «матового стекла», что является отличительной особенностью вирусной пневмонии. Однако такие системы не включают диагностику осложнений, возникающих при тяжелых стадиях вирусной пневмонии, и оказывающих немаловажное влияние на оценку тяжести поражения специалистом-радиологом. Эти патологии возникают часто на месте пораженных пневмонией тканей или смежных к ним, что приводит к неправильной интерпретации данных системами, не обученными к диагностированию таких патологий. Кроме того, в этом случае специалистам потребуется уделить дополнительное внимание легочным тканям в области поражения. Например, отличительной особенностью среднетяжелой и тяжелой формы пневмонии является тенденция пораженных тканей к консолидации. Пример такого рода патологических изменений проиллюстрирован на рис. 1.
Рис. 1. Снимок компьютерной томографии легких с выраженными участками поражения по типу «матового стекла» с тенденцией к консолидации [1]
Именно поэтому важно создавать и внедрять в медицину наиболее точные и эффективные автоматизированные системы диагностики заболеваний. Они не только помогут врачам убедится в правильности своего диагноза, но и смогут значительно снизить нагрузку на специалистов, работая автономно.
Разработанный программный модуль, описываемый в настоящей работе, предоставляет возможность осуществления анализа снимка компьютерной томографии легких на предмет наличия на нем признаков вирусной пневмонии и получения результатов анализа в виде сегментации областей интереса при их наличии и процентного соотношения области поражения к площади легкого. Пример сегментационной части анализа изображения приведен на рис. 2.
Рис. 2. Пример сегментации изображения по областям интереса для его дальнейшего анализа
Источником обучающих данных был выбран ресурс [1]. Обучающая выборка содержит 9 томов изображений и меток к классам размером 630 на 630 пикселей в формате NIFTI.
Для анализа изображений, в том числе имеющих биомедицинскую направленность, широко применяются алгоритмы глубокого обучения. Наибольших успехов в этой области достигли светрочные нейронные сети (СНС). Преимущество сверточных архитектур состоит в меньшей чувствительности таких моделей к аугментации изображений и в меньшем числе настраиваемых параметров. В данной работе для выбора архитектуры СНС для решения задачи семантической сегментации областей интереса были рассмотрены модели U-Net и SegNet.
Модель U-Net была разработана в 2015 году для задачи глубокого машинного зрения. Модель U-Net используется для семантической сегментации изображений и может быть адаптирована для медицинских изображений. Архитектура U-Net относится к типу архитектур кодер-декодер и, соответственно, состоит из двух частей: сужающегося кодера, служащего для выделения признаков, и расширяющегося декодера, осуществляющего проекцию вектора признаков на исходное изображение. Блок кодера состоит из двух сверточных слоев и слоя подвыборки (max pooling), блок декодера — из симметричных кодеру восходящих сверточных слоев и их конкатенации с выходом соответствующего слоя подвыборки из кодера. Архитектура U-Net представлена на рис. 3.
Рис. 3. Архитектура U-Net [2]
SegNet — это еще одна архитектура для семантической сегментации изображений, которая была представлена в 2015 году. Эта архитектура на основе сверточной нейронной сети и также имеет структуру кодер-декодер. Для обработки входных данных в данной архитектуре используются операции свертки и уровни максимального объединения (max pooling). Выходной сигнал, полученный кодером, передается в декодер для корректирования. SegNet использует такие пропускные соединения (skip-connections) между кодером и декодером, чтобы сохранять форму и пространственную информацию о входном изображении. Архитектура SegNet представлена на рис. 4.
Рис. 4. Архитектура SegNet [3]
Для оценки качества моделей использовалась мера Жакара (метрика IoU), которая представляет собой коэффициент совпадения между границами аннотированной области и предсказанными границами объекта.
В качестве оптимизатора для обучения моделей использовалась адаптивная оценка момента (Adam), которая является модификацией градиентного спуска и сочетает в себе свойства оптимизатора импульса и среднеквадратичного распространения. Функцией потерь в данной работе являлась категориальная кросс-энтропия (categorical crossentropy).
В результате обучения моделей удалось достигнуть результатов точности, представленных в таблице 1.
Таблица 1
Точность работы нейросетевых моделей U-Net и SegNet
Архитектура нейронной сети |
Точность работы нейросетевой модели (IoU) |
|
Тренировочная выборка |
Тестовая выборка |
|
U-Net |
0,87 |
0,80 |
SegNet |
0,90 |
0,86 |
Как видно из результатов, модели на основе обеих архитектур справились с задачей. Модель SegNet справилась с задачей немного лучше, что может быть объяснено большим количеством параметров сети.
В соответствии с полученными результатами, в качестве блока, отвечающего за сегментацию областей интереса в разработанном программном модуле, была выбрана архитектура SegNet.
Для сегментации же легких на исходном изображении, была выбрана архитектура U-Net, так как она имеет соответствующую направленность и показывает хорошие результаты в задачах бинарной сегментации.
После проведения семантической сегментации нужных областей и получения маски легких, программный модуль производит количественную оценку пораженной области, основанную на попиксельном подсчете полученных масок поражения и легких, вычислении таким образом их процентного соотношения друг относительно друга. Результат сегментации областей поражения и консолидации тканей, а также рассчитанный процент поражения сохраняются в виде файла формата png.
Литература:
- Jenssen, H. B. MedSeg Covid Dataset 2 / H. B. Jenssen. — Текст: электронный // figshare: [сайт]. — URL: https://doi.org/10.6084/m9.figshare.13521509.v2 (дата обращения: 08.05.2023).
- Ronneberger, O. U-Net: convolutional networks for biomedical image segmentation / O. Ronneberger, P. Fischer, T. Brox. — Текст: непосредственный // Lecture Notes in Computer Science. — 2015. — № 9351. — С. 234–241.
- Badrinarayanan, V. SegNet: a deep convolutional encoder-decoder architecture for image segmentation / V. Badrinarayanan, A. Kendall, R. Cipolla. — Текст: непосредственный // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2017. — № 39(12). — С. 2481–2495.