Одним из элементов системы надзора за инфекционной заболеваемостью является постановка эпидемиологического диагноза, включающего оценку эпидемической ситуации, ее причин и тенденций развития. В качестве первого этапа эпидемиологической диагностики рассматривается оценка проявлений эпидемического процесса по территории, среди разных групп населения и во времени, то есть изучение пространственно-временной структуры и динамики заболеваемости населения [1, 2]. Реализация этого этапа позволяет сформировать общее представление о масштабе изучаемой проблемы и направлении дальнейшего научного поиска, что важно для формирования гипотез о факторах и группах риска [1, 3].
Слежение за заболеваемостью и динамическое ее изображение в таблицах и на графиках преследует цель эпидемиологического осмысления наблюдаемых явлений, выдвижения объясняющих происходящие явления гипотез, их проверки и принятия управленческих решений [4]. В настоящее время информационные технологии шагнули далеко вперед и уже способны решать те задачи анализа, которые еще недавно описывались только в теории или решались ручным способом. При значительных объемах информации необходимо создание алгоритмов поиска значимых показателей, а также блоков интерпретации и обработки данных [5].
Анализ показателей кумулятивной инцидентности не выглядит чем-то сложным, пока эпидемиолог не сталкивается с задачей охарактеризовать интенсивность и динамику эпидемического процесса на десятках территорий с учетом меняющихся особенностей регистрации случаев заболеваний. В связи с этим нужны новые подходы. В качестве примера рассмотрено применение предлагаемой методики при анализе кумулятивной инцидентности хронического гепатита В (ХГВ) в 85 субъектах РФ за период 2014–2022 гг., включая 2020–2022 гг., когда на фоне пандемии новой коронавирусной инфекции COVID-19 регистрация новых случаев ХГВ резко сократилась, в основном из-за изменений в работе системы здравоохранения. При решении такой задачи возникает необходимость применения компьютерных алгоритмов для объективной оценки величины различий изучаемых показателей и визуализации результатов их работы для перевода полученных результатов на язык, понятный для исследователя.
В настоящее время обсуждаются перспективные направления цифровизации в части анализа и структурирования данных при помощи математических методов и подходов, создания интеллектуальных алгоритмов [6]. Широкое распространение получили методы машинного обучения (machine learning), представляющего собой процесс машинного анализа подготовленных статистических данных для поиска закономерностей и создания на их основе нужных алгоритмов, которые позволят в дальнейшем компьютерному искусственному интеллекту сделать корректные выводы на основании предоставленных ему данных [7]. Подобные подходы повышают эффективность прогнозирования рисков за счет использования объемных хранилищ данных при независимой идентификации новых предикторов риска и сложных взаимодействий между ними [8].
Методы машинного обучения находят все более широкое применение в эпидемиологических исследованиях, как правило, для построения прогнозных моделей [9–12]. В статье изложены общие принципы иерархической кластеризации кумулятивной инцидентности за многолетний период как метода эпидемиологического анализа, а также показана его большая информативность по сравнению с широко используемым для изучения пространственного распространения случаев заболевания картографического метода [3, 13, 14].
Цель исследования – обоснование использования визуализации результатов иерархической кластеризации стандартизованных показателей кумулятивной инцидентности за многолетний период как метода анализа пространственного распределения случаев заболевания.
Материалы и методы
Для анализа использованы сведения о заболеваемости ХГВ населения 85 субъектов РФ за период с 2014 по 2022 г. по данным формы федерального статистического наблюдения № 2 «Сведения об инфекционных и паразитарных заболеваниях». Все расчеты выполнены при помощи библиотек Python. Для масштабирования данных использована функция sklearn.preprocessing.MinMaxScaler. Для стандартизации данных как обязательного этапа подготовки к применению алгоритмов машинного обучения использована функция sklearn.preprocessing.StandardScaler. Обоснование применения обеих функций объясняется ниже по тексту. Для иерархической кластеризации использованы функции linkage и dendrogram библиотеки scipy.cluster.hierarchy, для понижения размерности данных – функция sklearn.decomposition.PCA.
Результаты
Для анализа пространственного распределения случаев заболевания ХГВ проведена кластеризация стандартизованных показателей кумулятивной инцидентности за многолетний период (2014–2022 гг.).
Алгоритм выполнения этого этапа эпидемиологического анализа включал:
- формирование набора данных для анализа;
- расчет стандартизованных показателей;
- построение дендрограммы по результатам иерархической кластеризации;
- оценку и интерпретацию полученных результатов с использованием тепловой карты или 3D-диаграммы.
Интенсивные показатели заболеваемости были сведены в таблицу, при этом каждому субъекту соответствовала отдельная строка, а каждому году – столбец. После завершения проверки полноты и правильности информации перешли к следующему этапу – получению стандартизованных значений (функция sklearn.preprocessing.StandardScaler). Поскольку в процессе исследования необходимо добиться, чтобы данные за каждый год имели одинаковый вес, стандартизацию следует проводить для всех субъектов в рамках каждого года. В случае применения функции кластеризации к данным без стандартизации годы, в которые наблюдались наиболее высокие показатели заболеваемости, оказывали бы наибольшее влияние на итоговое разделение субъектов на группы, что противоречит целям исследования. Стандартизованные показатели сохраняли в виде таблицы, и они служили входными данными для алгоритма иерархической кластеризации.
Результаты кластеризации визуализировались в виде дендрограммы, позволяющей оценить, насколько временные ряды исследуемых показателей отличаются друг от друга (функция scipy.cluster.hierarchy) (рис. 1, см. на вклейке). Так как при кластеризации субъектов не были сформулированы критерии эпидемиологического неблагополучия и не проводилась их проверка, для оценки значимости полученного результата для эпидемиологического анализа было необходимо оценить, насколько полученные группы субъектов могут быть отнесены к «неблагополучным», «благополучным» или «субъектам, на территории которых фиксировались периоды эпидемического неблагополучия». Такую оценку удобно осуществлять при помощи тепловой карты, представленной на рис. 2 (см. на вклейке).
Для ее создания проведено предварительное масштабирования данных в диапазоне от 0 до 1 с использование функции sklearn.preprocessing.MinMaxScaler для придания одинакового веса показателям заболеваемости в каждом году. Аналогичная карта могла бы быть построена на основе стандартизованных данных, но масштабированные показатели воспринимаются исследователем гораздо легче, чем стандартизованные.
При соотнесении информации, представленной на дендрограмме, с данными тепловой карты видно, что наиболее высокий уровень заболеваемости регистрировался в Республике Тыва и в Санкт-Петербурге, которые были отнесены к группе 1 – субъектов, неблагополучных по заболеваемости ХГВ. Субъекты, отнесенные к кластеру 2, имеют стабильно низкие показатели заболеваемости в течении всего периода наблюдения и могут быть отнесены к группе благополучных по заболеваемости ХГВ.
На территории субъектов РФ, отнесенных к группе 3, зафиксированы периоды эпидемического неблагополучия различной продолжительности, в зависимости от которой группа 3, при необходимости, может быть разделена на группы 3.1 и 3.2. Применяемый нами алгоритм, как и другие алгоритмы кластеризации, не позволяет определить, на сколько кластеров должны быть разделены субъекты наблюдения. Решение о количестве выделяемых групп следует принимать, исходя из задач исследования. В качестве дополнительного инструмента оценки распределения показателей мы использовали 3d диаграммы, предварительно снизив размерность данных до 3 показателей. Для решения задачи понижения размерности использован метод главных компонент (функция sklearn.decomposition.PCA).
Таким образом, в результате проведенного исследования получено разбиение субъектов на кластеры на основе изученных показателей без предварительной разработки критериев эпидемического неблагополучия. В зависимости от целей дальнейшего эпидемиологического анализа и сформулированной гипотезой полученные кластеры могут быть соотнесены с понятиями эпидемического благополучия, либо неблагополучия.
Обсуждение
Анализ пространственного распределения случаев инфекционного заболевания является важным этапом эпидемиологического анализа. Для представления результатов такого анализа принято использовать картограммы, которые при сравнении многолетних показателей иллюстрируют пространственное распределение средних значений на карте с привязкой к определенным регионам. Такая картограмма несет в себе гораздо меньше информации, чем предложенный нами метод, так как основывается только на характеристике центральной тенденции и не дает представления о группировке территорий по исследуемому показателю.
Визуализация в виде дендрограммы результатов иерархической кластеризации нормализованных показателей кумулятивной инцидентности позволяет получить объективное распределение территорий по группам, может быть использована как способ пространственной характеристики многолетних показателей при проведении эпидемиологического анализа и значительно превосходит по наглядности и информативности традиционно используемые для визуализации пространственного распределения картодиаграммы. Сравнение результатов иерархической кластеризации за несколько многолетних периодов можно использовать как объективный метод оценки изменений эпидемической ситуации на исследуемых территориях.
Стандартизация показателей, проводимая в качестве подготовительного этапа к применению алгоритма кластеризации, позволяет в значительной степени нейтрализовать влияние на результаты анализа особенностей регистрации данных в отдельные временные периоды.
Применение алгоритмов понижения размерности позволяет проводить подготовку данных для построения трехмерной визуализации пространственной характеристики многолетних показателей кумулятивной инцидентности, что значительно повышает наглядность распределения показателей. Такой способ визуализации может быть использован как самостоятельный метод предварительного анализа данных, но, на наш взгляд, он будет более информативен при добавлении дополнительной характеристики в виде кластера, к которому отнесены регионы, то есть совместно с иерархической кластеризацией.
Несмотря на то что описанный в статье подход может показаться сложным, программная реализация его не составляет труда, а значит, он является перспективным для включения в состав программных комплексов для проведения оперативного и ретроспективного эпидемиологического анализа.
Предлагаемая методика оценки пространственного распределения случаев инфекционного заболевания (в данном случае ХГВ) полностью вписывается в современную концепцию системы эпидемиологического надзора. С ее помощью удается, с одной стороны, решить проблему большого массива данных, с другой – получить объективное разделение субъектов РФ на отдельные группы. Принципиально важным следует считать отсутствие субъективного фактора при проведении этого этапа эпидемиологического анализа, что обеспечивает его достоверность. В нашем случае все субъекты РФ оказались разделены на 3 группы, одна из которых состояла из 2 подгрупп. В результате появляется возможность проводить дальнейший анализ эпидемической ситуации не только в стране в целом, но и по отдельным группам, объединенным общими математическими закономерностями.
В эпидемиологическом анализе, результатом которого является эпидемиологический диагноз, необходимо учитывать множество параметров, включенных в информационно-аналитическую подсистему системы эпиднадзора. При этом важно, чтобы следующий этап также базировался на методах, основу которых составляет математический подход.
Заключение
Описанные подходы к представлению многолетних показателей кумулятивной инцидентности значительно повышают информативность и объективность результатов изучения пространственного распределения заболеваемости как этапа эпидемиологического анализа. Учитывая доступность использованных для этой работы программных средств, предложенный метод может являться важным дополнением ретроспективного анализа заболеваемости, так как демонстрирует возможности применения методов машинного обучения при проведении эпидемиологического анализа.



