Методы машинного обучения в классификации качества атмосферного воздуха: от ансамблей к гибридным нейросетевым моделям

Форат Марк Игоревич

An analytical review of the problem of air pollution and existing approaches to its classification based on machine learning methods is presented. Task specifics, statistical, ensemble and neural network methods, results of recent studies, monitoring software and identified problems are considered. The prospects of hybrid architectures for overcoming the limitations of existing solutions are shown.

Keywords: air pollution, classification, neural networks, hybrid model, ecological monitoring

Загрязнение атмосферного воздуха остаётся одной из наиболее острых глобальных экологических проблем современности, непосредственно влияющих на здоровье населения и устойчивое развитие городских агломераций. По данным Всемирной организации здравоохранения, ежегодно загрязнённый воздух ассоциируется с более чем 4 млн преждевременных смертей в мире. Основными источниками выступают промышленные предприятия, автотранспорт, энергетика и сельское хозяйство, порождающие сложный коктейль вредных веществ: твёрдые частицы (PM2.5, PM10), оксиды азота и серы, угарный газ, а также летучие органические соединения. Эти поллютанты способны проникать глубоко в дыхательную систему, вызывать респираторные и сердечно-сосудистые заболевания, необратимые изменения лёгких [1].

Особенности задачи классификации уровней загрязнения определяются рядом специфических факторов. Данные экологического мониторинга обладают высокой размерностью признакового пространства, временной и пространственной неоднородностью, наличием шумов, пропусков и, что особенно критично, выраженным дисбалансом классов: наблюдения с высоким уровнем загрязнения встречаются значительно реже, несмотря на их высокую практическую значимость [2]. В связи с этим традиционные статистические методы, опирающиеся на линейные зависимости и нормальность распределения, зачастую оказываются неэффективны, особенно при распознавании редких категорий экстремального загрязнения.

В последние годы активно развивается направление, связанное с применением методов машинного обучения для классификации качества воздуха. К числу широко применяемых алгоритмов относятся логистическая регрессия, метод опорных векторов (SVM), алгоритм k-ближайших соседей, деревья решений, случайный лес, градиентный бустинг и нейронные сети [3]. Линейные модели отличаются высокой интерпретируемостью, но ограничены в моделировании сложных нелинейных зависимостей. SVM с нелинейными ядрами способен выявлять сложные границы классов, однако требует тщательной настройки гиперпараметров. Ансамблевые методы, такие как случайный лес и CatBoost, демонстрируют высокую устойчивость к шуму и способность работы с разнородными данными, включая категориальные признаки [4].

Обзор современных исследований показывает широкое разнообразие подходов. В работе [2] для классификации данных по Джакарте использован CatBoost, достигший accuracy 97,81 %, причём наиболее значимым признаком оказался озон. В исследовании [5] для афинских данных сравнивались Naive Bayes, C4.5 и ADTree, лучший результат показал ADTree — accuracy 85,48 %. Рекуррентные нейронные сети (RNN, LSTM) применялись для учёта временных зависимостей [6]. Выдающиеся результаты (accuracy до 99,9 %) получены при комбинации SMOTE и глубокой нейронной сети (SMOTEDNN), а также с помощью модифицированного случайного леса [7, 8]. Однако такие высокие показатели требуют осторожной интерпретации ввиду риска переобучения.

Наряду с алгоритмическими разработками развивается рынок программных систем мониторинга. Платформа IQAir AirVisual обеспечивает покрытие 10 000+ городов и прогнозы AQI до 7 дней, но не позволяет вводить пользовательские параметры. Plume Labs специализируется на гиперлокальном прогнозировании, BreezoMeter использует мультимодельный подход со спутниковыми данными. Корпоративные решения (IBM Weather Company) ориентированы на Enterprise-сегмент. OpenWeatherMap и Google Air Quality API предоставляют доступные интерфейсы, однако все перечисленные системы обладают общим ограничением: они привязаны к географическим данным и не поддерживают ввод пользовательских концентраций для классификации [9].

Анализ существующих решений позволяет выделить ключевые проблемы. Во-первых, большинство исследований фокусируется на отдельных алгоритмах, не исследуя потенциал гибридных архитектур. Во-вторых, задача дисбаланса классов зачастую решается недостаточно эффективно. В-третьих, на рынке отсутствует универсальное прикладное решение, позволяющее пользователю задавать собственные параметры загрязнителей для классификации.

В качестве перспективного направления преодоления указанных ограничений предлагается гибридная архитектура, реализующая стратегию feature-level stacking: вероятностные выходы модели градиентного бустинга (CatBoost) используются в качестве дополнительных признаков для многослойного перцептрона (MLP). Такой подход позволяет скомбинировать способность бустинга эффективно обрабатывать разнородные признаки с потенциалом нейронной сети моделировать сложные нелинейные зависимости. Применение функции потерь Focal Loss и техник регуляризации (Dropout, BatchNorm, L1/L2) обеспечивает устойчивость к переобучению и дисбалансу классов. Данное решение демонстрирует перспективность применения гибридных методов машинного обучения для повышения точности оценки качества воздуха и может рассматриваться как один из современных подходов к решению актуальных экологических проблем и совершенствованию систем экологического мониторинга.

Литература:

Хасти Т., Тибширани Р., Фридман Дж. Элементы статистического обучения / пер. с англ. — М.: МЦНМО, 2015. — 856 с.
Zhao X. et al. A Deep Recurrent Neural Network for Air Quality Classification // Journal of Information Hiding and Multimedia Signal Processing. — 2018. — Vol. 9. — No. 2. — P. 346–354.
Михеев А. В. Решение задач классификации методами машинного обучения // Молодой ученый. — 2021. — № 21. — С. 107–110.
Haq M. A. SMOTEDNN: A novel model for air pollution forecasting and AQI classification // Computers, Materials & Continua. — 2022. — Vol. 71. — No. 1.
Amado T. M. Air Quality Characterization Using k-Nearest Neighbors Machine Learning Algorithm via Classification and Regression Training in R // Journal of Computational Innovations and Engineering Applications. — 2018. — Vol. 2. — No. 2. — P. 1–7.
Hamami F., Dahlan I. A. Air quality classification in urban environment using machine learning approach // IOP Conference Series: Earth and Environmental Science. — 2022. — Vol. 986. — No. 1. — P. 012004.
Yi H. et al. A novel random forest and its application on classification of air quality // 2019 8th International Congress on Advanced Applied Informatics (IIAI-AAI). — IEEE, 2019. — P. 35–38.

Молодой учёный

Методы машинного обучения в классификации качества атмосферного воздуха: от ансамблей к гибридным нейросетевым моделям

Методы машинного обучения в классификации качества атмосферного воздуха: от ансамблей к гибридным нейросетевым моделям

Молодой учёный