Кластеризация стандартизованных показателей кумулятивной инцидентности за многолетний период как метод анализа пространственного распределения случаев заболевания

DOI

https://dx.doi.org/10.18565/epidem.2024.14.1.31-5

Дубоделов Д.В., Углева С.В., Гасанов Г.А., Корабельникова М.И., Сычева Н.В., Заволожин В.А., Есьман А.С., Власенко Н.В., Семененко Т.А., Кузин С.Н., Акимкин В.Г.
1) Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; 2) Национальный исследовательский центр эпидемиологии и микробиологии имени почетного академика Н.Ф. Гамалеи Минздрава России, Москва, Россия

Цель исследования. Обоснование использования визуализации результатов иерархической кластеризации стандартизованных показателей кумулятивной инцидентности за многолетний период как метода анализа пространственного распределения случаев заболевания.
Материалы и методы. Проанализированы сведения о заболеваемости хроническим гепатитом В (ХГВ) населения 85 субъектов Российской Федерации за период с 2014 по 2022 г. по данным статистической формы № 2 «Сведения об инфекционных и паразитарных болезнях». Все расчеты выполнены при помощи библиотек Python.
Результаты. Описана последовательность действий по получению и интерпретации результатов иерархической кластеризации показателей многолетней кумулятивной инцидентности в субъектах Российской Федерации с целью анализа многолетней заболеваемости населения ХГВ.
Заключение. Предложенный метод значительно повышает информативность и объективность результатов изучения пространственного распределения случаев заболевания ХГВ.

эпидемиологический анализ

эпидемический процесс

хронический гепатит В

машинное обучение

кластеризация

Одним из элементов системы надзора за инфекционной заболеваемостью является постановка эпидемиологического диагноза, включающего оценку эпидемической ситуации, ее причин и тенденций развития. В качестве первого этапа эпидемиологической диагностики рассматривается оценка проявлений эпидемического процесса по территории, среди разных групп населения и во времени, то есть изучение пространственно-временной структуры и динамики заболеваемости населения [1, 2]. Реализация этого этапа позволяет сформировать общее представление о масштабе изучаемой проблемы и направлении дальнейшего научного поиска, что важно для формирования гипотез о факторах и группах риска [1, 3].

Слежение за заболеваемостью и динамическое ее изображение в таблицах и на графиках преследует цель эпидемиологического осмысления наблюдаемых явлений, выдвижения объясняющих происходящие явления гипотез, их проверки и принятия управленческих решений [4]. В настоящее время информационные технологии шагнули далеко вперед и уже способны решать те задачи анализа, которые еще недавно описывались только в теории или решались ручным способом. При значительных объемах информации необходимо создание алгоритмов поиска значимых показателей, а также блоков интерпретации и обработки данных [5].

Анализ показателей кумулятивной инцидентности не выглядит чем-то сложным, пока эпидемиолог не сталкивается с задачей охарактеризовать интенсивность и динамику эпидемического процесса на десятках территорий с учетом меняющихся особенностей регистрации случаев заболеваний. В связи с этим нужны новые подходы. В качестве примера рассмотрено применение предлагаемой методики при анализе кумулятивной инцидентности хронического гепатита В (ХГВ) в 85 субъектах РФ за период 2014–2022 гг., включая 2020–2022 гг., когда на фоне пандемии новой коронавирусной инфекции COVID-19 регистрация новых случаев ХГВ резко сократилась, в основном из-за изменений в работе системы здравоохранения. При решении такой задачи возникает необходимость применения компьютерных алгоритмов для объективной оценки величины различий изучаемых показателей и визуализации результатов их работы для перевода полученных результатов на язык, понятный для исследователя.

В настоящее время обсуждаются перспективные направления цифровизации в части анализа и структурирования данных при помощи математических методов и подходов, создания интеллектуальных алгоритмов [6]. Широкое распространение получили методы машинного обучения (machine learning), представляющего собой процесс машинного анализа подготовленных статистических данных для поиска закономерностей и создания на их основе нужных алгоритмов, которые позволят в дальнейшем компьютерному искусственному интеллекту сделать корректные выводы на основании предоставленных ему данных [7]. Подобные подходы повышают эффективность прогнозирования рисков за счет использования объемных хранилищ данных при независимой идентификации новых предикторов риска и сложных взаимодействий между ними [8].

Методы машинного обучения находят все более широкое применение в эпидемиологических исследованиях, как правило, для построения прогнозных моделей [9–12]. В статье изложены общие принципы иерархической кластеризации кумулятивной инцидентности за многолетний период как метода эпидемиологического анализа, а также показана его большая информативность по сравнению с широко используемым для изучения пространственного распространения случаев заболевания картографического метода [3, 13, 14].

Цель исследования – обоснование использования визуализации результатов иерархической кластеризации стандартизованных показателей кумулятивной инцидентности за многолетний период как метода анализа пространственного распределения случаев заболевания.

Материалы и методы

Для анализа использованы сведения о заболеваемости ХГВ населения 85 субъектов РФ за период с 2014 по 2022 г. по данным формы федерального статистического наблюдения № 2 «Сведения об инфекционных и паразитарных заболеваниях». Все расчеты выполнены при помощи библиотек Python. Для масштабирования данных использована функция sklearn.preprocessing.MinMaxScaler. Для стандартизации данных как обязательного этапа подготовки к применению алгоритмов машинного обучения использована функция sklearn.preprocessing.StandardScaler. Обоснование применения обеих функций объясняется ниже по тексту. Для иерархической кластеризации использованы функции linkage и dendrogram библиотеки scipy.cluster.hierarchy, для понижения размерности данных – функция sklearn.decomposition.PCA.

Результаты

Для анализа пространственного распределения случаев заболевания ХГВ проведена кластеризация стандартизованных показателей кумулятивной инцидентности за многолетний период (2014–2022 гг.).

Алгоритм выполнения этого этапа эпидемиологического анализа включал:

формирование набора данных для анализа;
расчет стандартизованных показателей;
построение дендрограммы по результатам иерархической кластеризации;
оценку и интерпретацию полученных результатов с использованием тепловой карты или 3D-диаграммы.

Интенсивные показатели заболеваемости были сведены в таблицу, при этом каждому субъекту соответствовала отдельная строка, а каждому году – столбец. После завершения проверки полноты и правильности информации перешли к следующему этапу – получению стандартизованных значений (функция sklearn.preprocessing.StandardScaler). Поскольку в процессе исследования необходимо добиться, чтобы данные за каждый год имели одинаковый вес, стандартизацию следует проводить для всех субъектов в рамках каждого года. В случае применения функции кластеризации к данным без стандартизации годы, в которые наблюдались наиболее высокие показатели заболеваемости, оказывали бы наибольшее влияние на итоговое разделение субъектов на группы, что противоречит целям исследования. Стандартизованные показатели сохраняли в виде таблицы, и они служили входными данными для алгоритма иерархической кластеризации.

Результаты кластеризации визуализировались в виде дендрограммы, позволяющей оценить, насколько временные ряды исследуемых показателей отличаются друг от друга (функция scipy.cluster.hierarchy) (рис. 1, см. на вклейке). Так как при кластеризации субъектов не были сформулированы критерии эпидемиологического неблагополучия и не проводилась их проверка, для оценки значимости полученного результата для эпидемиологического анализа было необходимо оценить, насколько полученные группы субъектов могут быть отнесены к «неблагополучным», «благополучным» или «субъектам, на территории которых фиксировались периоды эпидемического неблагополучия». Такую оценку удобно осуществлять при помощи тепловой карты, представленной на рис. 2 (см. на вклейке).

Для ее создания проведено предварительное масштабирования данных в диапазоне от 0 до 1 с использование функции sklearn.preprocessing.MinMaxScaler для придания одинакового веса показателям заболеваемости в каждом году. Аналогичная карта могла бы быть построена на основе стандартизованных данных, но масштабированные показатели воспринимаются исследователем гораздо легче, чем стандартизованные.

При соотнесении информации, представленной на дендрограмме, с данными тепловой карты видно, что наиболее высокий уровень заболеваемости регистрировался в Республике Тыва и в Санкт-Петербурге, которые были отнесены к группе 1 – субъектов, неблагополучных по заболеваемости ХГВ. Субъекты, отнесенные к кластеру 2, имеют стабильно низкие показатели заболеваемости в течении всего периода наблюдения и могут быть отнесены к группе благополучных по заболеваемости ХГВ.

На территории субъектов РФ, отнесенных к группе 3, зафиксированы периоды эпидемического неблагополучия различной продолжительности, в зависимости от которой группа 3, при необходимости, может быть разделена на группы 3.1 и 3.2. Применяемый нами алгоритм, как и другие алгоритмы кластеризации, не позволяет определить, на сколько кластеров должны быть разделены субъекты наблюдения. Решение о количестве выделяемых групп следует принимать, исходя из задач исследования. В качестве дополнительного инструмента оценки распределения показателей мы использовали 3d диаграммы, предварительно снизив размерность данных до 3 показателей. Для решения задачи понижения размерности использован метод главных компонент (функция sklearn.decomposition.PCA).

Таким образом, в результате проведенного исследования получено разбиение субъектов на кластеры на основе изученных показателей без предварительной разработки критериев эпидемического неблагополучия. В зависимости от целей дальнейшего эпидемиологического анализа и сформулированной гипотезой полученные кластеры могут быть соотнесены с понятиями эпидемического благополучия, либо неблагополучия.

Обсуждение

Анализ пространственного распределения случаев инфекционного заболевания является важным этапом эпидемиологического анализа. Для представления результатов такого анализа принято использовать картограммы, которые при сравнении многолетних показателей иллюстрируют пространственное распределение средних значений на карте с привязкой к определенным регионам. Такая картограмма несет в себе гораздо меньше информации, чем предложенный нами метод, так как основывается только на характеристике центральной тенденции и не дает представления о группировке территорий по исследуемому показателю.

Визуализация в виде дендрограммы результатов иерархической кластеризации нормализованных показателей кумулятивной инцидентности позволяет получить объективное распределение территорий по группам, может быть использована как способ пространственной характеристики многолетних показателей при проведении эпидемиологического анализа и значительно превосходит по наглядности и информативности традиционно используемые для визуализации пространственного распределения картодиаграммы. Сравнение результатов иерархической кластеризации за несколько многолетних периодов можно использовать как объективный метод оценки изменений эпидемической ситуации на исследуемых территориях.

Стандартизация показателей, проводимая в качестве подготовительного этапа к применению алгоритма кластеризации, позволяет в значительной степени нейтрализовать влияние на результаты анализа особенностей регистрации данных в отдельные временные периоды.

Применение алгоритмов понижения размерности позволяет проводить подготовку данных для построения трехмерной визуализации пространственной характеристики многолетних показателей кумулятивной инцидентности, что значительно повышает наглядность распределения показателей. Такой способ визуализации может быть использован как самостоятельный метод предварительного анализа данных, но, на наш взгляд, он будет более информативен при добавлении дополнительной характеристики в виде кластера, к которому отнесены регионы, то есть совместно с иерархической кластеризацией.

Несмотря на то что описанный в статье подход может показаться сложным, программная реализация его не составляет труда, а значит, он является перспективным для включения в состав программных комплексов для проведения оперативного и ретроспективного эпидемиологического анализа.

Предлагаемая методика оценки пространственного распределения случаев инфекционного заболевания (в данном случае ХГВ) полностью вписывается в современную концепцию системы эпидемиологического надзора. С ее помощью удается, с одной стороны, решить проблему большого массива данных, с другой – получить объективное разделение субъектов РФ на отдельные группы. Принципиально важным следует считать отсутствие субъективного фактора при проведении этого этапа эпидемиологического анализа, что обеспечивает его достоверность. В нашем случае все субъекты РФ оказались разделены на 3 группы, одна из которых состояла из 2 подгрупп. В результате появляется возможность проводить дальнейший анализ эпидемической ситуации не только в стране в целом, но и по отдельным группам, объединенным общими математическими закономерностями.

В эпидемиологическом анализе, результатом которого является эпидемиологический диагноз, необходимо учитывать множество параметров, включенных в информационно-аналитическую подсистему системы эпиднадзора. При этом важно, чтобы следующий этап также базировался на методах, основу которых составляет математический подход.

Заключение

Описанные подходы к представлению многолетних показателей кумулятивной инцидентности значительно повышают информативность и объективность результатов изучения пространственного распределения заболеваемости как этапа эпидемиологического анализа. Учитывая доступность использованных для этой работы программных средств, предложенный метод может являться важным дополнением ретроспективного анализа заболеваемости, так как демонстрирует возможности применения методов машинного обучения при проведении эпидемиологического анализа.

1. Беляков В.Д., Яфаев Р.Х. Эпидемиология: Учебник. М.: Медицина, 1989. 416 с.

Belyakov V.D., YAfaev R.H. (Epidemiology: Textbook). Moscow: Medicine, 1989. 416 p. (In Russ.)

2. Беляков В.Д., Дегтярев А.А., Иванников Ю.Г. Качество и эффективность противоэпидемических мероприятий. Л.: Медицина, 1981. 303 с.

Belyakov V.D., Degtyarev A.A., Ivannikov Yu.G. (The quality and effectiveness of anti-epidemic measures). Saint-Petersburg: Medicine, 1981. 303 p. (In Russ.)

3. Зуева Л.П., Еремин С.Р., Асланов Б.И. Эпидемиологическая диагностика. 2-е изд., перераб. и доп. СПб: Фолиант, 2009. 312 с.

Zueva L.P., Eremin S.R., Aslanov B.I. (Epidemiological diagnosis. 2nd edition). Saint-Petersburg: Foliant. 2009. 312 p. (In Russ.)

4. Слободенюк А.В., Косова А.А., Ан Р.Н. Эпидемиологический анализ: Учебное пособие. Екатеринбург: изд. ГБОУ ВПО УГМУ Минздрава России, 2015. 36 с.

Slobodenyuk A.V., Kosova A.A., An R.N. (Epidemiological analysis). Ekaterinburg. Ural State Medical University publishing house, 2015. 36 p. (In Russ.)

5. Гаврилов Д.В., Абрамов Р.В., Кирилкина А.В., Ившин А.А., Новицкий Р.Э. Модель прогнозирования пандемии COVID-19 на основе машинного обучения в отдельных регионах Российской Федерации. Фармакоэкономика. Современная фармакоэкономика и фармакоэпидемиология 2021; 14(3): 342–56. https://doi.org/10.17749/ 2070-4909/farmakoekonomika.2021.108

Gavrilov D.V., Abramov R.V., Kirilkina А.V., Ivshin А.А., Novitskiy R.E. (COVID-19 pandemic prediction model based on machine learning in selected regions of the Russian Federation). Farmakoekonomika. Modern Pharmacoeconomics and Pharmacoepidemiology 2021; 14(3): 342–56 (In Russ.). https://doi.org/10.17749/2070-4909/farmakoekonomika.2021.108.

6. Зайцева Н.В., Май И.В., Кирьянов Д.А., Бабина С.В., Камалтдинов М.Р. Cанитарно-эпидемиологический надзор: новый этап развития в условиях цифровизации и правовых изменений. Анализ риска здоровью 2021; (2): 4–16. DOI: 10.21668/health.risk/2021.2.01

Zaitseva N.V., May I.V., Kiryanov D.А., Babina S.V., Kamaltdinov M.R. (Sanitary-epidemiological surveillance: a new stage in development stimulated by digitalization and changes in legislation). Health Risk Analysis 2021; (2): 4–16. (In Russ.). DOI: 10.21668/health.risk/2021.2.01

7. Гусев А.В., Добриднюк С.Л. Искусственный интеллект в медицине и здравоохранении. Информационное общество 2017; (4–5): 78–93.

Gusev A.V., Dobridnyuk S.L. (Artificial intelligence in medicine and healthcare.) Information Society 2017; (4–5): 78–93. (In Russ.).

8. Невзорова В.А., Плехова Н.Г., Присеко Л.Г., Черненко И.Н., Богданов Д.Ю., Мокшина М.В. и др. Методы машинного обучения в прогнозировании исходов и рисков сердечно-сосудистых заболеваний у пациентов с артериальной гипертензией (по материалам ЭССЕ-РФ в Приморском крае). Российский кардиологический журнал 2020; 25(3): 10–16. doi:10.15829/1560-4071-2020-3-3751

Nevzorova V.A., Plekhova N.G., Priseko L.G., Chernenko I.N., Bogdanov D.Yu., Mokshina M.V., Kulakova N.V. (Machine learning for predicting the outcomes and risks of cardiovascular diseases in patients with hypertension: results of ESSE-RF in the Primorsky Region). Russian Journal of Cardiology 2020; 25(3): 3751 (In Russ.). https://doi.org/10.15829/1560-4071-2020-3-3751

9. Бетелин В.Б., Галкин В.А., Ряховский А.В. Tочечные и распределенные модели распространения коронавирусной инфекции. Успехи кибернетики 2021; 2(2): 12–20. DOI: 10.51790/2712-9942-2021-2-2-1

Betelin V. B., Galkin V. A., Ryakhovskiy A. V. (Local and Distributed Models of the Coronavirus Spread). Russian Journal of Cybernetics 2021; 2(2): 12–20. (In Russ.). DOI: 10.51790/2712-9942-2021-2-2-1

10. Наумов И.В., Отмахова Ю.С., Красных С.С. Методологический подход к моделированию и прогнозированию воздействия пространственной неоднородности процессов распространения COVID-19 на экономическое развитие регионов России. Компьютерные исследования и моделирование 2021; 13(3): 629–48. DOI: 10.20537/2076-7633-2021-13-3-629-648

Naumov I.V., Otmakhova Y.S., Krasnykh S.S. (Methodological approach to modeling and forecasting the impact of the spatial heterogeneity of the COVID-19 spread on the economic development of Russian Regions) Computer Research and Modelin. 2021; 13(3): 629–48. (In Russ.). DOI: 10.20537/2076-7633-2021-13-3-629-648

11. Сенько О.В., Кузнецова А.В., Воронин Е.М., Кравцова О.А., Борисова Л.Р., Кирилюк И.Л. и др. Методы интеллектуального анализа данных в исследованиях эпидемии COVID-19. Журнал Белорусского государственного университета. Математика. Информатика 2022; (1): 83–96. https://doi.org/10.33581/2520-6508-2022-1-83-96

Senko O.V., Kuznetsova A.V., Voronin E.M., Kravtsova O.A., Borisova L.R., Kirilyuk I.L., Akimkin V.G. (Methods of intellectual data analysis in COVID-19 research.) Journal of the Belarusian State University. Mathematics and Informatics. 2022; (1): 83–96. (In Russ.). https://doi.org/10.33581/2520-6508-2022-1-83-96

12. Головерова Ю.А., Абросимова О.А., Кузнецова А.В., Воронин Е.М. Машинное обучение для оценки взаимосвязи кадровых ресурсов и основных показателей здравоохранения с заболеваемостью инфекциями, связанными с оказанием медицинской помощи, среди пациентов стационаров в субъектах Российской Федерации. Вестник науки 2022; 3(11): 304–20.

Goloverova Yu.A., Abrosimova O.A., Kuznetsova A.V., Voronin E.M. (Machine learning to assess the relationship of human resources and key health indicators with the incidence of infections associated with the provision of medical care among hospital patients in the subjects of the Russian Federation). Bulletin of Science 2022; 3(11): 304–20. (In Russ.).

13. Панин А.Н., Рыльский И.А., Тикунов В.С. Пространственные закономерности распространения пандемии COVID-19 в России и мире: картографический анализ. Вестник Московского университета. Серия 5. География 2021; (1): 62–77.

Panin A.N., Rilskiy I.A., Tikunov V.S. (Spatial patterns of COVID-19 distribution in Russia and the world: cartographic analysis). Lomonosov Geography Journal. Series 5, Geography 2021; (1): 62–77. (In Russ.).

14. Завальский Л.Ю., Доброхотский О.Н., Зиновьев Г.А., Воронина М.А., Еремченко Е.Н., Клименко С.В. Пространственно-временной анализ инфекционной заболеваемости с использованием методов неогеографии на примере городского поселения Оболенск Московской области. Биозащита и биобезопасность 2011; 3(2): 22–9.

Zavalsky L.Y., Dobrokhotskiy O.N., Zinoviev G.A., Voronina M.A., Eremchenko E.N., Klimenko S.V. (The existential analysis of infectious desease with use of methods neogeography by the example of city settlement Obolensk of the Moscow area). Biosecurity and biosafety 2011; 3(2): 22–9. (In Russ.).

Дубоделов Дмитрий Васильевич – к.м.н., старший научный сотрудник лаборатории вирусных гепатитов, Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; dubodelov@cmd.su; http://orcid.org/0000-0003-3093-5731
Углева Светлана Викторовна – д.м.н., профессор, научный консультант организационно-методического отдела, Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; ugleva@cmd.su; http://orcid.org/0000-0002-1322-0155
Гасанов Гасан Алиевич – консультант организационно-методического отдела, Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; gasanov@cmd.su; http://orcid.org/0000-0002-0121-521X
Корабельникова Марина Игоревна – научный сотрудник лаборатории вирусных гепатитов, Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; korabelnikova@cmd.su; http://orcid.org/0000-0002-2575-8569
Сычева Наталья Владимировна – младший научный сотрудник лаборатории инфекций, связанных с оказанием медицинской помощи, Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; natsy@bk.ru; http://orcid.org/0000-0001-8557-6540
Заволожин Василий Алексеевич – к.м.н., младший научный сотрудник лаборатории вирусных гепатитов, Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; zavolozhin@cmd.su; http://orcid.org/0000-0003-4015-1105
Есьман Анна Сергеевна – научный сотрудник лаборатории молекулярных методов изучения генетических полиморфизмов, Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; esman@cmd.su; http://orcid.org/0000-0002-5456-7649
Власенко Наталья Викторовна – лаборант-исследователь лаборатории вирусных гепатитов, Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; vlasenko@cmd.su; http://orcid.org/0000-0002-2388-1483
Семененко Татьяна Анатольевна – д.м.н., профессор, руководитель отдела эпидемиологии, Национальный исследовательский центр эпидемиологии и микробиологии имени почетного академика Н.Ф. Гамалеи Минздрава России, Москва, Россия; semenenko@gamaleya.org; http://orcid.org/0000-0002-6686-9011
Кузин Станислав Николаевич – д.м.н., профессор, заведующий лабораторией вирусных гепатитов, Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; drkuzin@list.ru; http://orcid.org/0000-0002-0616-9777
Акимкин Василий Геннадиевич – академик РАН, д.м.н., профессор, директор, Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия; vgakimkin@yandex.ru; http://orcid.org/0000-0003-4228-9044

Дубоделов Д.В., Углева С.В., Гасанов Г.А., Корабельникова М.И., Сычева Н.В., Заволожин В.А., Есьман А.С., Власенко Н.В., Семененко Т.А., Кузин С.Н., Акимкин В.Г.

Ключевые слова

Материалы и методы

Результаты

Обсуждение

Заключение

Список литературы

Об авторах / Для корреспонденции

Также по теме