Imputação de dados de NO2 do TROPOMI

Logo

Aplicação de modelos de Aprendizado de Máquina na estimação da coluna troposférica de NO2 do TROPOMI no estado do Pará

View the Project on GitHub WesPereira/no2-data-imputation

Aplicação de modelos de Aprendizado de Máquina na estimação da coluna troposférica de NO2 do TROPOMI no estado do Pará

Contexto e Motivação

O uso de dados de sensoriamento remoto é crucial no monitoramento das mudanças ambientais globais e na observação da Terra, especialmente na região do Pará, Brasil, onde a Amazônia enfrenta desafios devido à atividade humana. Dados do satélite Sentinel-5P e seu instrumento TROPOMI são fundamentais para monitorar a qualidade do ar e a concentração de dióxido de nitrogênio (NO2), ajudando a avaliar o impacto do desmatamento e queimadas na atmosfera amazônica.

Objetivo

Este trabalho visa desenvolver e avaliar modelos de Aprendizado de Máquina para estimar a concentração de NO2 na coluna troposférica , usando dados do sensor TROPOMI do satélite Sentinel-5P. Focando na Amazônia, o estudo busca superar dificuldades na coleta de dados precisos devido à presença de nuvens, contribuindo para o monitoramento da qualidade do ar e entendimento dos impactos humanos no equilíbrio ambiental global.

Metodologia

Pipeline de pré-processamento

O trabalho foi desenvolvido seguindo uma metodologia de ciclo de experimento, conforme ilustrado na figura abaixo. Esse processo inclui desde a fase inicial de coleta de dados até as etapas subsequentes de análise dos resultados.

Figura 1: Diagrama do ciclo de experimento um experimento de dados em oito passos

Estudo de Caso

O desenvolvimento foi estruturado em torno de um estudo de caso, onde, para treinar os modelos, selecionaram-se aleatoriamente 50 pontos no estado do Pará, Brasil, para coletar variáveis de sensoriamento remoto associadas à concentração de NO2.

Figura 2: Mapa da distribuição geográfica dos pontos de coleta de amostras no estado do Pará, Brasil

Seleção das variáveis independentes

Os critérios estabelecidos para a escolha das variáveis de sensoriamento remoto (variáveis independentes) empregadas na estimativa da concentração de NO2 foram os seguintes:

  1. Disponibilidade do dado via API do Google Earth Engine;
  2. Resolução temporal diária;
  3. Possível correlação/influência com a concentração da coluna troposférica de NO2 do ponto de vista físico;
Assim, as seguintes variáveis foram selecionadas baseadas nos críterios definidos acima:

Nome da variável Código da Coleção Res. espacial (m)
Optical_Depth_047 MODIS/061/MCD19A2_GRANULES 1000
Column_WV MODIS/061/MCD19A2_GRANULES 1000
precipitationCal NASA/GPM_L3/IMERG_V06 11132
temperature_2m ECMWF/ERA5_LAND/DAILY_AGGR 11132
evaporation_from_bare_soil_sum ECMWF/ERA5_LAND/DAILY_AGGR 11132
volumetric_soil_water_layer_1 ECMWF/ERA5_LAND/DAILY_AGGR 11132
surface_latent_heat_flux_sum ECMWF/ERA5_LAND/DAILY_AGGR 11132
sm_surface NASA/SMAP/SPL4SMGP/007 11000

Modelos de machine learning

Ao longo do projeto, explorou-se uma gama de modelos de Machine Learning, de técnicas tradicionais a Deep Learning, selecionados com base em literatura prévia para resolver problemas de regressão. Os modelos testados incluem:

Resultados e Conclusão

A Tabela a seguir apresenta uma visão quantitativa comparativa dos resultados obtidos por cada modelo, destacando as principais métricas de avaliação.

Modelo r MSE RMSE MAE
Lasso 0.23 0.48 14.70 3.83 2.84
RF 0.43 0.66 10.97 3.31 2.30
XGBoost 0.47 0.68 10.17 3.19 2.00
LightGBM 0.44 0.66 10.66 3.26 2.20
Conv1D 0.21 0.46 15.16 3.89 2.90
GRU 0.21 0.45 15.15 3.89 2.88
LSTM 0.22 0.47 14.90 3.86 2.86
ConvLSTM 0.19 0.43 15.53 3.94 2.92

Nota-se que os modelos baseados em árvores de decisão como XGBoost, Random Forest e LightGBM superaram os modelos lineares e redes neurais nas métricas de avaliação. O XGBoost destacou-se por lidar melhor com a complexidade dos dados, enquanto o desempenho inferior das redes neurais sugere desafios em capturar dependências não sequenciais ou a necessidade de mais dados para treinamento.

Figura 3: Distribuição de erros absolutos por modelo, mostrando a comparação de desempenho entre LightGBM, XGBoost, Random Forest (RF), AdaBoost, GRU, Lasso, ConvLSTM e LSTM

Os boxplots mostram que modelos de Machine Learning como LightGBM, XGBoost e Random Forest têm um desempenho notavelmente melhor, com erros menores e menos variabilidade, enquanto o AdaBoost tem uma dispersão maior de erros e as redes neurais, incluindo GRU, LSTM e ConvLSTM, apresentam os maiores erros e mais outliers, indicando a necessidade de mais dados ou de dados mais complexos.

Conclusão

O projeto demonstrou que a metodologia empregada para estimar a concentração de NO2 na coluna troposférica é viável e eficaz, com destaque para os modelos baseados em árvore que apresentaram resultados notáveis. Apesar dos modelos de deep learning não terem atingido o mesmo nível de sucesso, eles oferecem uma base importante para pesquisas e aprimoramentos futuros.