Aplicação de modelos de Aprendizado de Máquina na estimação da coluna troposférica de NO2 do TROPOMI no estado do Pará
O uso de dados de sensoriamento remoto é crucial no monitoramento das mudanças ambientais globais e na observação da Terra, especialmente na região do Pará, Brasil, onde a Amazônia enfrenta desafios devido à atividade humana. Dados do satélite Sentinel-5P e seu instrumento TROPOMI são fundamentais para monitorar a qualidade do ar e a concentração de dióxido de nitrogênio (NO2), ajudando a avaliar o impacto do desmatamento e queimadas na atmosfera amazônica.
Este trabalho visa desenvolver e avaliar modelos de Aprendizado de Máquina para estimar a concentração de NO2 na coluna troposférica , usando dados do sensor TROPOMI do satélite Sentinel-5P. Focando na Amazônia, o estudo busca superar dificuldades na coleta de dados precisos devido à presença de nuvens, contribuindo para o monitoramento da qualidade do ar e entendimento dos impactos humanos no equilíbrio ambiental global.
O trabalho foi desenvolvido seguindo uma metodologia de ciclo de experimento, conforme ilustrado na figura abaixo. Esse processo inclui desde a fase inicial de coleta de dados até as etapas subsequentes de análise dos resultados.
Figura 1: Diagrama do ciclo de experimento um experimento de dados em oito passos
O desenvolvimento foi estruturado em torno de um estudo de caso, onde, para treinar os modelos, selecionaram-se aleatoriamente 50 pontos no estado do Pará, Brasil, para coletar variáveis de sensoriamento remoto associadas à concentração de NO2.
Figura 2: Mapa da distribuição geográfica dos pontos de coleta de amostras no estado do Pará, Brasil
Os critérios estabelecidos para a escolha das variáveis de sensoriamento remoto (variáveis independentes) empregadas na estimativa da concentração de NO2 foram os seguintes:
Nome da variável | Código da Coleção | Res. espacial (m) |
---|---|---|
Optical_Depth_047 |
MODIS/061/MCD19A2_GRANULES |
1000 |
Column_WV |
MODIS/061/MCD19A2_GRANULES |
1000 |
precipitationCal |
NASA/GPM_L3/IMERG_V06 |
11132 |
temperature_2m |
ECMWF/ERA5_LAND/DAILY_AGGR |
11132 |
evaporation_from_bare_soil_sum |
ECMWF/ERA5_LAND/DAILY_AGGR |
11132 |
volumetric_soil_water_layer_1 |
ECMWF/ERA5_LAND/DAILY_AGGR |
11132 |
surface_latent_heat_flux_sum |
ECMWF/ERA5_LAND/DAILY_AGGR |
11132 |
sm_surface |
NASA/SMAP/SPL4SMGP/007 |
11000 |
Ao longo do projeto, explorou-se uma gama de modelos de Machine Learning, de técnicas tradicionais a Deep Learning, selecionados com base em literatura prévia para resolver problemas de regressão. Os modelos testados incluem:
A Tabela a seguir apresenta uma visão quantitativa comparativa dos resultados obtidos por cada modelo, destacando as principais métricas de avaliação.
Modelo | R² | r | MSE | RMSE | MAE |
---|---|---|---|---|---|
Lasso | 0.23 | 0.48 | 14.70 | 3.83 | 2.84 |
RF | 0.43 | 0.66 | 10.97 | 3.31 | 2.30 |
XGBoost | 0.47 | 0.68 | 10.17 | 3.19 | 2.00 |
LightGBM | 0.44 | 0.66 | 10.66 | 3.26 | 2.20 |
Conv1D | 0.21 | 0.46 | 15.16 | 3.89 | 2.90 |
GRU | 0.21 | 0.45 | 15.15 | 3.89 | 2.88 |
LSTM | 0.22 | 0.47 | 14.90 | 3.86 | 2.86 |
ConvLSTM | 0.19 | 0.43 | 15.53 | 3.94 | 2.92 |
Nota-se que os modelos baseados em árvores de decisão como XGBoost, Random Forest e LightGBM superaram os modelos lineares e redes neurais nas métricas de avaliação. O XGBoost destacou-se por lidar melhor com a complexidade dos dados, enquanto o desempenho inferior das redes neurais sugere desafios em capturar dependências não sequenciais ou a necessidade de mais dados para treinamento.
Figura 3: Distribuição de erros absolutos por modelo, mostrando a comparação de desempenho entre LightGBM, XGBoost, Random Forest (RF), AdaBoost, GRU, Lasso, ConvLSTM e LSTM
Os boxplots mostram que modelos de Machine Learning como LightGBM, XGBoost e Random Forest têm um desempenho notavelmente melhor, com erros menores e menos variabilidade, enquanto o AdaBoost tem uma dispersão maior de erros e as redes neurais, incluindo GRU, LSTM e ConvLSTM, apresentam os maiores erros e mais outliers, indicando a necessidade de mais dados ou de dados mais complexos.
O projeto demonstrou que a metodologia empregada para estimar a concentração de NO2 na coluna troposférica é viável e eficaz, com destaque para os modelos baseados em árvore que apresentaram resultados notáveis. Apesar dos modelos de deep learning não terem atingido o mesmo nível de sucesso, eles oferecem uma base importante para pesquisas e aprimoramentos futuros.