Последнее время всё более важную роль занимают спутниковые дистанционные методы исследования земли. Это связанно с ростом качества, количества и доступностью спутниковых снимков. В силу большого количества данных, эффективный анализ спутниковых снимков требует применения методов машинного обучения. С их помощью производится обработка, анализ и формирование пригодных для дальнейшего анализа специалистом данных. Такие данные необходимы для решения множества практических задач, в таких областях как экология, аграрный комплекс, бизнес и так далее.
Основным источником данных, для мониторинга местности являются цифровые изображения, полученные искусственными спутниками земли. Основной задачей, рассматриваемой в данной работе, является формирование цифровых карт с выделенными слоями картографической информации.
Для решения задачи классификации изображений можно выделить два основных подхода. Первый из них — это метод, основанный на пиксельном анализе интенсивности спектральных характеристик и признаках на них основанных, а второй основанный на пространственных характеристиках изображения реализованный с помощью свёрточных нейронных сетей.
В данной работе описываются особенности реализации обоих методов и производится сравнение результатов их работы.
В качестве обучающих данных используется набор снимков, сделанный в течение года, для выделения различных характеристик изображения специфичных для определённого времени года, а также набор с достоверными данными, для реализации алгоритмов обучения с учителем и проверки результатов.
Методы классификации земного покрова
В этой области можно выделить два основных подхода для классификации: обучение с учителем и обучение без учителя. Основным преимуществом первого, основанного на объединении пикселей в классы на основе схожести спектральных значений, является отсутствие необходимости в размеченных данных для обучения. Среди них можно выделить такие, как метод главных компонент (PCA), его модификация PCANet была использована для классификации спутниковых снимков [1]. Метод k-means [2] дающий хорошие результаты, но зачастую для грубого разбиение на классы. Так же интересны результаты метода Bag of Visual Words, применённые для схожего типа задач, основанного на алгоритме k-means, применённого для классификации спутниковых снимков [3].
Методы распознавание с учителем в большинстве современных работ реализованы с помощью свёрточных нейронных сетей, архитектура которых хорошо подходит для обработки изображений в различных задачах дистанционного зондирования, таких как обнаружение геопространственных объектов [4] и классификация земных покровов [5–7].
Подготовка данных
Одной из главных задач для методов машинного обучения является поиск и подготовка исходных данных в пригодном для машинного обучения виде. Для этого необходимо определить необходимые характеристики, на основании анализа которых, алгоритм будет принимать решение и обработать их таким образом, чтобы алгоритм принял наиболее точное решение.
Основными характеристиками для данной задачи являются — спектральные свойства. Спектральные свойства — это свойства объекта, которые характеризуют его способность поглощать, пропускать и отражать электромагнитные волны.
Исходные данные представляют собой изображения в нескольких спектральных диапазонах c пространственным разрешением 10 метров, сделанные спутником Sentinel-2. Данные были загружены с помощью сервиса со свободным доступом SentinelHub со следующими спектральными диапазонами: Red, Green, Blue, NIR, SWIR. Так же, в силу схожести многих типов земного покрова, для данного типа задач используются спектральные индексы, это числовые признаки, основанные на спектральных характеристиках. В данной работе были использованы такие индексы как: NDVI, EVI и MNDWI. Первые два помогают выделять и различать различные типы растительности, а последний, служит для выделения водных поверхностей.
Для обработки, исходные данные были разделены на зоны интереса, изображения, охватывающие интересующую область, покрывающие площадь примерно 3 на 3 километра.
Большой проблемой при исследовании поверхности земли со снимков спутника, являются — облака, так как они часто могут покрывать довольно большую площадь поверхности. Для устранения облачных пикселей с изображения, была применена маска значимых пикселей, где значимым, считается пиксель, для которого вероятность того, что он облачный ниже определённого порога, вероятности для таких пикселей получены с помощью классификатора, реализованного сервисом SentinelHub. Для того, чтобы не удалять из выборки изображения с пикселями, признанными не значимыми, эти пиксели восстанавливаются за счёт пикселей не покрытых облаками изображений, полученных в ближайшее время, с помощью метода линейной интерполяции.
Для обучения свёрточной нейронной сети исходные изображения, были разбиты на более мелкие зоны интереса, охватываемые изображениями небольших размеров, для ускорения обучения. Для получившегося набора изображений была проведена корректировка яркости и контрастности.
Для реализации метода, основанного на анализе спектральных характеристик, был выбран алгоритм Random Forest, так как с его помощью можно получить карту важности признаков, влияющих на принятие алгоритмом решения, что полезно для дальнейшего анализа. Для реализации пространственного подхода была выбрана архитектура свёрточной сети U-Net, показывающая хорошие результаты даже при малом количестве исходных данных.
Классификация производилась в соответствии с эталонными данными, содержащим достоверную информацию о следующих типах покрытия местности: сельскохозяйственные насаждения, лес, мелкая растительность, кустарники, водоёмы, искусственные постройки (здания и дороги).
Результаты эксперимента
Для алгоритма, основанного на спектральном анализе данных, был проведён ряд экспериментов. Были проанализированы различные спектральные признаки, поставлены эксперименты для различных входных данных. Исследованы результаты работы алгоритма для наблюдений земного покрова в различные временные промежутки: летний, зимний сезоны, круглогодичное наблюдение, так же были проведены эксперименты для данных, полученных с различной частотой наблюдения земной поверхности: 8 дней, 16 дней и 1 месяц. Были поставлены эксперименты для различных значений покрытия поверхности облаками.
Для наилучшего подбора параметров — круглогодичного наблюдения, с периодом в 16 дней и с порогом облачности не превышающем 20 % общая точность составила 88 %. Для большинства типов классифицируемых объектов точность превысила 90 %, за исключением кустарников, для которых точность составила 39 %, что объясняется низким присутствием данного покрытия в исходных данных и схожести их спектральных характеристик с лесными насаждениями. Эксперименты с иной частотой наблюдений, показали более низкие результаты 87.1 % для частоты в 8 дней, 86.2 % для месяца. Результаты наблюдений только определённого сезона, так же оказались чуть более низкими: 87.3 % для летнего периода и 86.9 % для зимнего. Так же метод показал устойчивость к увеличению порога облачности до 40 %, снизив точность всего на 0.7 %, что делает его потенциально применимым к таким задачам как фильтрация облаков.
Рис. 1. Карта важности признаков классификатора Random Forest
Анализируя карту признаков(Рис 1), отражающую важность признака для обучения в определённый момент времени, можно сделать вывод, что наиболее важную роль в течение целого года играют спектральные признаки NIR и SWIR, так же можно увидеть закономерность роста важности признаков отражающих состояние растительности (EVI, SWIR) в определённые даты, исследовав изображения полученные в это время, выяснилось, что скорее всего рост важности признаков обусловлен солнечной погодой в этот период времени.
Для свёрточной нейронной сети были проведены эксперименты с различными размерами изображения, подаваемых на вход: 64x64, 128x128 и 256x256 пикселей. Самый высокий результат получился для изображений 128x128 пикселей, для этого метода точность составила 83.7 %. Для данного алгоритма сохранилась невысокая точность распознавания кустарниковых насаждений, но также была получена более низкая точность для распознавания водных поверхностей, порядка 58 %. Наиболее высокая точность для обоих методов достигнута для лесного покрова, она составила 98–99 %.
Рис. 2. Визуализация результата
На (Рис 2) представлена визуализация результата работы алгоритмов, вверху слева снимок исследуемой области, вверху справа представление эталонных данных земного покрова. Внизу слева результат работы алгоритма Random Forest, внизу справа результат работы свёрточной сети.
Заключение
Точность для обоих подходов, составила более 80 %, что является хорошим показателем для такого типа задач. Несмотря на более низкие результаты, полученные с помощью свёрточных нейронных сетей, данный подход является перспективным, при увеличении количества исходных данных и более тонкого подбора характеристик.
Литература:
- Chaib S., Gu Y., Yao H. An informative feature selection method based on sparse PCA for VHR scene classification // IEEE Geosci. Remote Sens. Lett., vol. 13, no. 2, pp. 147–151, 2016
- Gurudatta V., Anuja A. K-Means Clustering Algorithm with Color-based Thresholding for Satellite Images // International Journal of Computer Applications (0975–8887) Volume 105 — No. 11, pp 17–20, November 2014
- Zhu Q., Zhong Y., Zhao B., Xia G.-S, Zhang L. Bag-of-Visual-Words Scene Classifier With Local and Global Features for High Spatial Resolution Remote Sensing Imagery // IEEE Geosci. Remote Sens. Lett., vol. 13, no. 6, pp. 747–751, 2016.
- Samal D. R., Gedam S. S. Monitoring land use changes associated with urbanization: An object based image analysis approach // Eur. J. Remote Sens. 2015, 48, 85–99
- Zhang F., Du B., Zhang L., Xu M. Weakly Supervised Learning Based on Coupled Convolutional Neural Networks for Aircraft Detection // IEEE Trans. Geosci. Remote Sens., vol. 54, no. 9, pp. 5553–5563, 2016.
- Luus F., Salmon B., Van Den Bergh F., Maharaj B. Multiview deep learning for land-use classification // IEEE Geosci. Remote Sens. Lett., vol. 12, no. 12, pp. 2448–2452, 2015.
- Zhong Y., Fei F., Zhang L. Large patch convolutional neural networks for the scene classification of high spatial resolution imagery // J. Appl. Remote Sens., vol. 10, no. 2, pp. 025006–025006, 2016.