В статье исследуется связь между количеством статей о гене и его роли в развитии рака.
Ключевые слова: рак, биоинформатика, молекулярная биология.
Рак — это злокачественная опухоль клеток эпителиальной ткани, которая ежегодно забирает жизни двух миллионов людей. В развитых странах рак является второй по распространенности причиной смертности после сердечно-сосудистых заболеваний, на него приходится около 26 % всех смертей в мире. [ 1 ]
У онкологических заболеваний различают 4 основных стадии [ 2 ]:
- Первая стадия — опухоль ограничена пределами органа, из которого она исходит. Метастазов нет. Опухоль операбельна. Выживаемость 70–90 %
- Вторая стадия — опухоль ограничена пределами органа, из которого исходит. Метастазы в лимфатических узлах первого порядка. Опухоль операбельна, но нет 100 %-ной вероятности в ее полном удалении. Выживаемость ок. 50 %.
- Третья стадия — опухоль больших размеров, прорастает в ближайшие органы и ткани, есть метастазы в регионарных лимфатических узлах. Опухоль в большинстве случаев не операбельна. Шанс пятилетнего выживания — 15–20 %.
- Четвертая стадия — имеются отдаленные метастазы. Опухоль неоперабельна. Шанс выжить крайне мал.
Несмотря на то, что рак впервые описали в 1800-х годах, бороться с ним начали только в 1970-х, когда президент Соединенных Штатов Америки Ричард Никсон объявил «войну против рака». Именно тогда начали проводиться многие онкологические исследования. До сих пор в мире проводится колоссальное количество новых онкологических исследований. Количество статей про рак растёт с каждым годом (Рис.1). Поэтому полезно находить способы анализировать колоссальные накопленные массивы информации.
Рис. 1. Количество статей, написанных о раке в каждом году с 1921 по 2021, опубликованных на сайте PubMed.gov [ 3 ]
Большая проблема, связанная с лечением рака, которая также представляет огромный интерес исследователей — рецидивы. Рецидив — это возобновление болезни после кажущегося выздоровления. На вероятность возникновения рецидива может влиять множество различных факторов. Одна из основных причин возникновения рецидивов — метастазы. Метастазы — злокачественные клетки, отделившиеся от первичного новообразования и перенесенные с током крови или лимфы в другие участки тела. После перемещения клетки располагаются в одном определенном месте и образуют новые опухоли, например, в печени.
Уровень экспрессии некоторых генов достоверно связана с вероятностью рецидива. В этой работе мы решили проверить, что количество статей помогает отобрать такие гены.
Мы рассматриваем колоректальную аденокарциному — опухоль, которая происходит из эпителиальных клеток толстого кишечника. Колоректальный рак занимает третье место среди злокачественных новообразований после рака легких и кожи в России.
У многих пациентов колоректальный рак появляется на фоне полипов толстой кишки. Полип — различные по происхождению патологические образования, возвышающиеся над поверхностью слизистых оболочек. Симптомами данной болезни могут быть длительные запоры или диарея; ощущение инородного тела в кишечнике; ложные позывы к дефекации; потемнение кала или наличие в нем крови; спазмы и боли в животе; потеря веса; слабость или утомляемость.
Гипотеза
Чем больше написано статей про конкретный ген, тем лучше он предсказывает развитие рецидива.
Методы
Данные
В этой исследовательской работе использовались Follow-up studies (когортные исследования) — особая форма исследования, в котором проводится выборка когорты (группа людей, у которых в один и тот же период произошло определенное демографическое событие), предназначенная для изучения степени, в которой эффекты, наблюдаемые вскоре после какого-либо клинического вмешательства, сохраняются с течением времени. Соответственно, мы взяли выборку пациентов с колоректальной аденокарциномой, у которых была измерена экспрессия определённых генов. Экспрессия генов в каждом из наборов данных была измерена при помощи ДНК-чипа Affymetrix Human Genome U133Plus 2.0 arrays.
Были использованы следующие наборы данных:
1. GSE14333 — Пробы были взяты из хирургически удаленной колоректальной аденокарциномы 290 онкопациентов. [ 4 ]
2. GSE33113 — Пробы были взяты у 90 онкобольных со II стадией колоректальной аденокарциномой. [ 5 ]
3. GSE 37892 — Были взяты 130 проб колоректальной аденокарциномы у больных со II-III стадиями. [ 6 ]
4. GSE39582 — Были взяты 443 пробы колоректального рака. [ 7 ]
5. GSE92921 — Были взяты 59 проб у онкобольных со II-III стадиями колоректальной аденокарциномой. [ 8 ]
Информация из каждого набора данных была отображена в виде двух таблиц: в одной был ID пациента, ген и его активность, а в другой ID пациента, событие, время до последней проверки события, стадия болезни и набор данных. Под событием подразумевается либо смерть пациента, либо возникновение рецидива Disease-free survival (выживание без болезни) — концепт, описывающий период после успешного лечения (в основном различных онкозаболеваний), во время которого у пациента не возникают признаки/симптомы вылеченной болезни, а также летальный исход. [ 9 ]
Подсчет количества статей
В целях подсчета статей был написан специальный скрипт на языке Python 3, который загружал веб-страницу по ссылке https://pubmed.ncbi.nlm.nih.gov/?term=НАЗВАНИЕ_ГЕНА+AND+ %22colorectal+cancer %22 , где НАЗВАНИЕ ГЕНА — это название целевого гена, количество статей с которым в контексте колоректального рака числится на сайте Pubmed. Это сайт, на котором представлено множество биомедицинских статей. Далее скрипт перебирал все гены, представленные в ДНК-чипе Affymetrix Human Genome U133Plus 2.0 arrays и считывал информацию о количестве статей, которые содержат и название гена, и термин «колоректальный рак». Для взаимодействия с веб-страницами использовался модуль requests
Оценка предсказательной силы генов
Для оценки предсказательной силы генов мы использовали пакет lifelines [ 10 ], который представляет инструментарий для работы с follow-up studies (когортными исследованиями). Для оценки вклада экспрессии гена в выживаемость пациента использовалась регрессия Кокса. В качестве показателя вклада использовали индекс конкордантности.
Низкой экспрессией мы считаем экспрессией, которая попадает в нижний квартиль по данному гену по всем пациентам.
Результаты и обсуждение
Связь индекса конкордантности с количество статей показана на Рис. 2. На нем по оси y показано количество статей, по оси x индекс конкордантности генов (каждая точка — отдельный ген). Как можно видеть, здесь возникает контринтуитивный результат: количество статей и concordance index вообще никак не связаны.
Рис. 2. График, показывающий количество статей про определенный ген и его concordance
Для того, чтобы узнать информацию о каждом из генов был использован сайт https://www.uniprot.org
Таблица 1
Гены, о которых написано наибольшее количество статей, связанных с колоректальной аденокарциномой. Столбец Genes показывает название гена; столбец Articles показывает количество написанных статей о гене; столбец Concordance показывает индекс конкордантности
Genes |
Articles |
Concordance |
Функция гена |
JUN |
13005 |
0.52 |
участвует в ангиогенезе, старении, апоптозе, АФК, реакция на цитокины, регуляция клеточного цикла, регуляция пролиферации, реакция на медикаменты |
FOCAD |
12088 |
0.57 |
потенциальный супрессор опухолей в глиомах |
KRAS |
5078 |
0.51 |
Регуляция пролиферации клеток, участвует в развитии колоректального рака |
EGFR |
3967 |
0.50 |
Рецептор эпителиального фактора роста, проводит сигнал к пролиферации эпителиальных клеток [14] |
NTPCR |
3007 |
0.56 |
Cancer-related nucleoside-triphosphatase |
APC |
2947 |
0.52 |
Супрессор опухолей. |
BRAF |
2940 |
0.62 |
Стимулирует клетку к делению митозом |
Названия некоторых генов интерпретировались сайтом PubMed.gov как обычные слова, это исказило поиск. Мы исключили гены, которые очевидно интерпретировались как обычные слова, из таблицы с топ-10 генами, поэтому их 7.
Из таблицы 1 и рисунка 3 видно, что гены, про которых много статей, связаны В основном с развитием первичной опухоли (самый важный процесс тут — пролиферация). Тогда как гены с высоким concordance index, согласно таблице 2 и рисунку 4, более часто связаны с миграцией клеток, перестройкой матрикса (нужной для миграции) и изменениям в регуляции транскрипции.
Таблица 2
10 генов с наибольшим индексом конкордантности. Столбец Genes показывает название гена; столбец Articles показывает количество написанных статей о гене; столбец Concordance показывает индекс конкордантности
Genes |
Articles |
Concordance |
|
TM4SF1 |
11 |
0.7413541159279103 |
Трансмембранный белок. |
DCBLD2 |
5 |
0.7090842669264491 |
Супрессор клеточного роста, залечивает раны, сигнальный внутриклеточный рецептор |
ASAP1 |
3 |
0.6961763273258645 |
белок, активирующий ГТ-фазу, координирует клеточный рост |
ADAMTS5 |
7 |
0.6947150511446664 |
Металлопротеиназа, то есть белок, который расщепляет другие белки с помощью ионов металла. Разрушает внеклеточный матрикс |
IGFBP3 |
161 |
0.6937408670238675 |
Известно две мутации этого белка при колоректальном раке. |
IDS |
16 |
0.6926449098879688 |
Лизосомальный фермент. Связан с мукополисахаридозом (нарушением соединительной ткани) |
SERPINE1 |
30 |
0.6872868972235753 |
Регулятор миграции клеток. |
PTPN14 |
7 |
0.6857038480272771 |
Лимфангиогенез, прикрепление клеток друг другу, клеток к матриксу, миграция и рост клеток, эпителиально-мезенхимальный переход. |
CDX1 |
31 |
0.6839990258158792 |
Фактор транскрипции, играет роль в развитии колоректального рака. |
MIDEAS |
85 |
0.68339016074038 |
Фактор транскрипции |
Рис. 3. Процессы, в которых участвуют гены с большим количеством статей
Рис. 4. Процессы, в которых участвуют гены с большим индексом конкордантности
Выводы
- Нет связи между тем, сколько статей написано о гене и его силой предсказания возникновения рецидива колоректальной аденокарциномы
- Гены, про которые написано много статей, в основном играют роль в пролиферации и других процессах, связанных с возникновением опухоли. Тогда как гены, вызывающие рецидив, чаще участвуют в миграции клеток, перестройке матрикса и регуляции транскрипции. Итак, сейчас учёных больше интересует механизм развития первичной опухоли, а не метастазирования и возникновения рецидивов.
- В будущем можно более аккуратно подходить к подсчёту статей — например, учитывать процессы, которые участвуют в развитии рецидивов, и вместо всех статей про какой-то рак и ген считать статьи про участи гена в каком-либо значимом процессе.
Литература:
- Weinberg, Robert A. The biology of cancer. Garland science, 2013.
- https://unim.su/blog/stadirovanie-onkologicheskih-zabolevanij/
- https://pubmed.ncbi.nlm.nih.gov
- Jorissen RN, Gibbs P, Christie M, Prakash S et al. Metastasis-Associated Gene Expression Changes Predict Poor Outcomes in Patients with Dukes Stage B and C Colorectal Cancer. Clin Cancer Res 2009 Dec 15;15(24):7642–7651. PMID: 19996206
- de Sousa E Melo F, Colak S, Buikhuisen J, Koster J et al. Methylation of cancer-stem-cell-associated Wnt target genes predicts poor prognosis in colorectal cancer patients. Cell Stem Cell 2011 Nov 4;9(5):476–85. PMID: 22056143 Kemper K, Versloot M, Cameron K, Colak S et al. Mutations in the Ras-Raf Axis underlie the prognostic value of CD133 in colorectal cancer. Clin Cancer Res 2012 Jun 1;18(11):3132–41. PMID: 22496204
- Laibe S, Lagarde A, Ferrari A, Monges G et al. A seven-gene signature aggregates a subgroup of stage II colon cancers with stage III. OMICS 2012 Oct;16(10):560–5. PMID: 22917480
- Marisa L, de Reyniès A, Duval A, Selves J et al. Gene expression classification of colon cancer into molecular subtypes: characterization, validation, and prognostic value. PLoS Med 2013;10(5):e1001453. PMID: 23700391
- Kengo Gotoh, Eiji Shinto, Yuichiro Yoshida, Hideki Ueno, Yoshiki Kajiwara, Masato Yamadera, Ken Nagata, Hitoshi Tsuda, Junji Yamamoto and Kazuo Hase. Prognostic Model of Stage II/III Colon Cancer Constructed using Gene Expression Subtypes and KRAS Mutation Status. J Clin Exp Oncol 2018;7:2. doi:10.4172/2324–9110.1000214
- https://www.nature.com/subjects/disease-free-survival
- https://zenodo.org/record/5512044#.Ydxrmy1c5QI