• Tidak ada hasil yang ditemukan

농도 공간 분포 분석을 위한 회귀 모델 및 기계학습 기법 비교

N/A
N/A
Protected

Academic year: 2023

Membagikan "농도 공간 분포 분석을 위한 회귀 모델 및 기계학습 기법 비교"

Copied!
18
0
0

Teks penuh

(1)

Article

서울 지역 지상 NO

2

농도 공간 분포 분석을 위한 회귀 모델 및 기계학습 기법 비교

강은진 1)*·유철희 1)·신예지 1)·조동진 1)·임정호 2)†

Comparative Assessment of Linear Regression and Machine Learning for Analyzing the Spatial Distribution of Ground-level NO

2

Concentrations:

A Case Study for Seoul, Korea

Eunjin Kang 1)*·Cheolhee Yoo 1)·Yeji Shin 1)·Dongjin Cho 1)·Jungho Im 2)

Abstract: Atmospheric nitrogen dioxide (NO2) is mainly caused by anthropogenic emissions. It contributes to the formation of secondary pollutants and ozone through chemical reactions, and adversely affects human health. Although ground stations to monitor NO2concentrations in real time are operated in Korea, they have a limitation that it is difficult to analyze the spatial distribution of NO2 concentrations, especially over the areas with no stations. Therefore, this study conducted a comparative experiment of spatial interpolation of NO2concentrations based on two linear-regression methods (i.e., multi linear regression (MLR), and regression kriging (RK)), and two machine learning approaches (i.e., random forest (RF), and support vector regression (SVR)) for the year of 2020. Four approaches were compared using leave-one-out-cross validation (LOOCV). The daily LOOCV results showed that MLR, RK, and SVR produced the average daily index of agreement (IOA) of 0.57, which was higher than that of RF (0.50). The average daily normalized root mean square error of RK was 0.9483%, which was slightly lower than those of the other models. MLR, RK and SVR showed similar seasonal distribution patterns, and the dynamic range of the resultant NO2concentrations from these three models was similar while that from RF was relatively small. The multivariate linear regression approaches are expected to be a promising method for spatial interpolation of ground-level NO2concentrations and other parameters in urban areas.

Key Words: Spatial Interpolation, gap-filling, ground-level NO2concentration, random forest, support vector regression, regression kriging, multi linear regression

Received December 2, 2021; Revised December 25, 2021; Accepted December 26, 2021; Published online December ??, 2021

1)울산과학기술원 도시환경공학과 석·박사과정생 (Combined MS/PhD Student, Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology)

2)울산과학기술원 도시환경공학과 정교수 (Professor, Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology)

Corresponding Author: Jungho Im ([email protected])

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

(2)

1. 서론

대기 중 이산화질소(NO2)는 주요 가스상 오염 물질 로써 일반적으로 인위적인 배출원으로부터 발생한다. NO2는 다른 물질과의2차 생성과정을 통해 산성비, 스 모그 등을 유발할 뿐만 아니라, 공장 및 자동차에서 배 출되는 휘발성 유기화합물(VOCs)과 반응하여 지구 온 난화 요인 중 하나인 오존(O3)을 형성한다(WHO, 2005;

Krotkovet al., 2016; US EPA, 2016). 특히, NO2에 대한 노 출은 인체 건강에 악영향을 미쳐 뇌졸중, 피부 질환 및 호흡기 질환을 유발할 수 있다(Sunet al., 2019; Zúñigaet

al., 2016). 지상NO2농도를 지속적으로 모니터링하기

위해 국내에서는 환경관리공단에서 관리하는 에어코 리아(https://www.airkorea.or.kr/) 사이트를 통해 매시간 NO2포함한 대기오염 물질 관측 값을 제공하고 있다. 하지만, 제한된 관측소 수와 미관측 지역으로 인해 공 간적으로 연속적인 대기오염 물질 노출량 산정에는 한 계가 있다.

위성 기반NO2자료는 넓은 지역에 대해서 공간적으 로 연속적인 오염 물질 정보를 제공할 수 있는 장점을 가 진다(Boersmaet al., 2007). 최근에 발사된TROPOspheric Monitoring Instrument (TROPOMI)는2018년4월 이후부 터 기존 위성과 비교하여 고해상도(5.5 km×3.5 km) NO2 연직 농도를 제공하고 있다. 하지만OMI Monitoring Instrument (OMI)와TROPOMI를 포함한 여러 위성들 은NO2연직 컬럼 농도를 제공하기 때문에 인간 생활에 밀접하게 영향을 주는 지상 농도에 대한 직접적인 정보 산출은 어렵다(Choiet al., 2021). 이는, 에어로졸 산란과

대기 중O3의 흡수에 의해 연직NO2농도와 지상NO2 농도는 비선형적 관계를 갖고 있기 때문이다(Linet al., 2012).

미관측 지점에 대한NO2공간 분석을 위해 기존의 연구는 다양한 접근법을 시도하고 있다. 정규크리깅 (Ordinary kriging)과 역거리 가중치법(Inverse Distance Weighting, IDW)은 공간적으로 연속적인 대기오염 노 출량 파악을 위해 전통적으로 많이 사용되었으며, 지상 관측 값만을 사용하여 미관측 지점의 농도를 계산할 수 있는 지리 통계학적 기법이다(Graleret al., 2012; Kimet

al., 2014; Shuklaet al., 2020). 지상 관측 값만을 이용할 경

우 지형 및 기상 요인으로 인한 공간 변동을 반영하기 어렵기 때문에 위성 산출물, 지형적 자료를 융합한 다 변량 공간 내삽법이 제안되고 있다. 대표적인 다변량 공 간 내삽법 중 하나는Multi-linear regression (MLR)으로써 종속 변수와 독립 변수간의 선형 관계를 모델링 하며, 효율적인 계산과 구현의 용이성에 대한 장점을 가진다 (Draperet al., 1998; Christensenet al., 2020). 최근 기계학 습 분야의 여러 기법이 다양한 환경 변수의 비선형적인 관계를 반영하기 위해 적용되고 있다(Liet al., 2014).

이전 기계학습을 활용한 대기 오염 물질 공간 내삽 논문은 국가 단위로 이루어져 왔으며, 도시 지역의NO2 공간 내삽을 위해 기계학습을 수행한 사례는 거의 존 재하지 않는다. 국가 단위의 공간 내삽의 경우는 샘플 의 개수가 많기 때문에 선형 회귀 모델과 비교하여 기 계학습 모델에서 효과적인 학습이 가능하다(Chenet al., 2019; Renet al., 2020). Markhamet al. (1998)은 모델 학습에 대해 선형 회귀 기법은 “snapshot”, 기계 학습은 요약 : 대기 중 이산화질소(NO2)는 주로 인위적인 배출요인으로 발생하며 화학 반응을 통해 이차오염 물질 및 오존 형성에 매개 역할을 하는 인체 건강에 악영향을 미치는 물질이다. 우리나라는 지상 관측소에 의한 실시간 NO2모니터링을 수행하고 있지만, 이는 점 기반의 관측 값으로써 미관측 지역의 공간 분포 분석이 어렵다는 한계점을 지닌다. 본 연구에서는 선형 회귀 기반 모델인 다중 선형 회귀와 회귀 크리깅, 기계학습 알고리즘인 Random Forest (RF), Support Vector Regression (SVR)을 적용한 공간 내삽 모델링을 통해 서울 지역의 지상NO2 농도 지도를 제작하였고, 일별Leave-One-Out Cross Validation (LOOCV) 교차 검증을 시행하였다. 2020년 연구 기간 내 일별LOOCV에서MLR, RK, SVR 모델의 일별 평균Index of agreement (IOA)는 약0.57로 유사한 성능 을 보였으며, RF (0.50)보다 높은 성능이 확인되었다. RK의 일별 평균nRMSE는0.9483%으로MLR (0.9501%)보 다 상대적으로 낮은 오차를 나타냈다. MLR과RK, RF 모델의 계절별 공간 분포는 비슷한 양상을 보였으며, RF 는 다른 모델에 비해 좁은NO2농도 범위가 확인되었다. 본 연구에서 제안된 선형 회귀 기반 공간 내삽은 지상 NO2뿐 아니라 다른 대기 오염 물질의 도시 지역 공간 내삽을 위해 활용 가능성이 높을 것으로 기대된다.

(3)

“understanding”을 통해 정확도를 향상할 수 있다고 주 장하였다. 이는, 학습을 위한 샘플 수가 작은 도시 지역 공간 내삽을 위해 선형 회귀 모델의 적용 가능성을 함 축한다.

따라서 본 연구에서는(1) 위성 및 인구, 지형자료와 지상 관측 자료를 사용하여 기계학습과 선형회귀 기반 의NO2지상농도 공간 내삽 모델을 개발하고, (2) 선형 회귀 모델과 기계학습 기반의 모델을 비교하여 성능평 가한 후, (3) 구축된 서울 지역의 일별 지상NO2농도 지 도를 계절별로 평균하여 네 개 모델에 대한 계절 공간 분포 모의 능력을 평가하였다.

2. 연구 지역 및 연구 자료

1) 연구 지역

본 연구의 대상지역인 서울은 인구1000만 이상이 살고 있는 대한민국의 수도로써2019년 기준 자치구별

1개씩 총25개의 도시대기측정망과15개의 도로변 대

기 측정망을 보유하고 있다. 서울에는NO2배출량 대 비 많은 관측소가 위치하여 오염물질의 공간 분포 분석 이 용이하다. 코로나 바이러스 감염증(COVID-19) 전 후로 국제적인 대기질 오염 유인이 줄어들었기 때문에 (Ghahremanlooet al., 2021), 국내NO2배출원 요인에 따 른NO2의 공간적인 변동 패턴을 살펴보고자 연구 기간

은2020년1월부터12월까지로 선정하였다.

2) NO2 지상농도 관측 자료

환경관리공단에서 운영하는 에어코리아는 전국적 인 대기오염실태, 변화추이를 효과적으로 파악하기 위 해 관측소를 도시대기, 도로변대기, 교외대기, 국가배경 농도, 항만 측정망으로 분류하여 실시간 모니터링을 진 행하고 있다. 본 연구에서는 서울시에 위치한 총40개의 도시대기(25개), 도로변대기(15개) 측정망 자료를 사용 하였으며, 공간 내삽 시 서울 외곽 지역의 정확도를 높 이기 위해 서울을 둘러싸고 있는 경기도에 위치한37개

Fig. 1. Study area with the distribution of the ground monitoring stations in red dots. Shuttle Radar Topography Mission (SRTM) Digital Elevation Model (DEM) with 30m was used as a background image.

(4)

의 도시대기(33개), 도로변대기(4개) 측정망을 추가하여 사용하였다. 일별 평균 자료 구축 시, 국립환경과학원에 서 제공하는 대기환경연보 통계처리 방법에 따라 관측

소별75%의 시간 자료가 확보될 경우에만 일 평균하여

사용하였다.

3) 위성 기반 자료

본 연구의 기계학습에 사용되는 입력변수는 위성 기 반 자료와 인구 및 지형학적 자료로 분류된다(Table 1).

먼저 위성 기반의NO2산출물에 대해Sentinel-5P위성

의TROPOMI센서를 통해 일별 전구 영역으로 제공되

는 연직 칼럼 농도가 사용되었다. 연직 칼럼 농도 내 기 상 및 지표면의 영향으로부터 발생하는 결측 값은 주변 픽셀 값을 고려하여Bilinear내삽기법을 통해 대체해주 었다(Ialongoet al., 2020; Wuet al., 2021).

NO2지상 농도는 지표면의 특성에 따라 분포가 다 를 수 있으므로 다중 위성에서 제공하는 다양한 표면 정보를 입력 변수로 사용하였다. 식생의 활력도를 나타 내는Normalized Difference Vegetation Index (NDVI)은 Terra, Aqua위성에 탑재된MODerate resolution Image Spectroradiometer (MODIS) 센서의 산출물(MOD13Q1,

MYD13Q1)이 활용되었다. MOD13Q1과MYD13Q1

NDVI자료는16일 주기의250 m공간 해상도로 제공되 고 있으며, 자료 산출 시8일간씩 일자가 겹치게 된다.

본 연구에서는 단기간의 식생 생장에 따른 토지 피복 의 변화를 고려하기 위해 목표 일자를 기준으로 가장 가까운 앞뒤 일자의 산출물을 평균한8일 주기NDVI 가 사용되었다(Parket al., 2017). 또한, 식생 생장에 따른 뚜렷한 사계절 변화를 반영하기 위해 계절 별Maximum Value Composite (MVC) NDVI를 구축하였다(Holbenet al., 1986).

Land Surface Temperature (LST)는 대기와 지표면 간 의 상호작용과 에너지의 이동을 반영하며 도시화의 정 도를 나타내는 지표로 사용되어 왔다(Chaoet al., 2020;

Guoet al., 2012). 본 연구는 낮밤의 지표면의 온도 특성과

공간적인 도시화 차이를 고려하기 위해 고해상도 산출 물인US Geological Survey (USGS)에서 제공하는Landsat 위성의 낮 시간(11:00 AM) LST와Advanced Spaceborne Thermal Emission Reflectance Radiometer (ASTER) 센서 의 밤시간(10:30 PM) LST를 사용하였다. 고해상도의 산

출물 사용시 구름으로 인한 결측값이 없는 맑은 날의 영 상 수에 제약이 있다. 따라서, 연구기간 동안 충분한 LST자료 취득이 어려웠기 때문에 가용 가능한 날짜의 영상자료를 이용하였다. 낮 시간LST경우, 2013년부터 2020년 동안의 여름 및 겨울철의 공간 분포 차이가 뚜 렷했기 때문에 여름 및 겨울철 평균LST을 각각 산출하 였다. 또한, 일반적인 낮 시간 공간 패턴 차이를 고려하 기 위해 전체 평균LST를 사용하였다(Chaoet al., 2020).

밤 시간LST는 낮 시간LST와 비교하여 시간의 변동보

다 토지 피복 변화, 토양 수분과 같은 공간적인 변동 영 향을 주로 받는다. 연구기간 내 구름이 없는 밤 시간LST 산출물이 존재하지 않았기 때문에 가장 가까운 일자인 2017년3월18일ASTER LST가 사용되었다(LUINTEL et al., 2019).

그 이외의 위성 산출물로써 야간 불빛지수(Nighttime Light, NTL), DEM, 토지 피복 산출물이 사용되었다.

NTL은 도시 및 산업화 분포와NO2의 관계를 고려할 수 있는 도시 발달의 지표 중 하나이다(Cuiet al., 2019). 본 연구는 미국 항공Defense Meteorological Satellite Program (DMSP)의Operational Linescan System (OLS)에서 제공 하는 연평균NTL을 활용하였다. 또한 지형의 고도를 반영하기 위해SRTM DEM을 사용하였으며, 토지 피복 산출물에 대해서MODIS의MCD12Q1을 이용하여 중 심 픽셀과 인접한 픽셀(7×7 윈도우) 내의 도시 지역 비 율을 계산하였다.

4) 인구 및 지형학적 자료

대기 중NO2와 기후학적 요인 간 상호작용을 파악하 기 위해 장기간 풍속 자료가 사용되어 왔다(Goldberget al., 2020; Wanninkhofet al., 2014). 본 연구는Global Wind Atlas (https://globalwindatlas.info)에서 제공하는10년 동 안의 평균 바람 속도장을 이용하여NO2와 지표 간의 관 계를 고려하였다. NO2의 인위적 배출에 따른 인구사회 학적 요인을 반영하기 위하여 인구, 건물 및 도로 밀도 자 료를 사용하였다. 인구, 건물 밀도 자료는Global Human Settlement에서 제공하는 공간해상도250 m의GHS- POP (인구밀도), GHS-BUILTUP (건물밀도) 격자 자료 를 사용하였으며(https://ghsl.jrc.ec.europa.eu/download.

php), 도로밀도는Global Roads Inventory Project (GRIP) 에서 벡터로 된 도로 자료를 제공받아ArcGIS Line

(5)

Density툴을 통해 산출되었다. 총5 종류의 도로 분류 중 자동차 이동량이 상대적으로 많은highways, primary roads, secondary roads에 대한 도로밀도와, 모든 도로를 사용한 도로밀도를 각각 산출하였다. 또한, DEM으로 부터ArcGIS Slope툴을 통해 경사(Slope)를 구축하였 으며, 위도와 경도 자료를 보조자료로 함께 사용하였다 (Table 1).

3. 연구 방법

본 연구의 최종 산출물의 공간해상도는250 m이며, 관측소의 분포와 다변량 모델의 입력 변수 공간해상도 를 고려하였다(Table 1). 본 연구는 다중 선형 회귀 기법 인MLR, Regression Kriging (RK)과 기계학습 알고리즘 인RF와SVR을 통해 공간 내삽을 수행하였다. 구축된 Table 1. Summary of input 5variables used to develop machine learning models in this study

Input Variables Source Spatial Resolution

Satellite-derived variables

NO2vertical column density TROPOMI 5.5 km × 3.5 km Normalized Difference Vegetation Index (NDVI) MODIS 250 m

Land Surface Temperature (LST) Landsat

Aster 90 m

Nighttime Light (NTL) DMSP/OLS 500 m

Digital Elevation Model (DEM) SRTM 30 m

Land Cover MODIS 500 m

Auxiliary variables

Wind speed Global Wind Atlas 250 m

Population Density GHS-POP 250 m

Built up GHS-Built up 250 m

Road Density Global Roads Inventory Project 250 m

Slope SRTM 250 m

Latitude / Longitude 250 m

Fig. 2. Process flow of the NO2gap filling using data-driven machine learning models (RF and SVR) and the linear regression models (MLR and RK) in this study.

(6)

모델들의 독립 변수는 위성 기반 자료와 인구 및 사회 학적 자료, 종속변수는 일별 지상NO2관측 값이 사용 되었다. 연구 기간인2020년1월부터12월까지 일별 공 간 내삽 검증 시 관측소별LOOCV를 수행하였다. 전체 적인 연구 흐름도는Fig. 2와 같다.

1) 자료 전처리

모델링시 훈련자료로 사용되는 독립 변수는 공간 해 상도가 다양하기 때문에 최종 산출물의 공간해상도250 m에 따라Bilinear내삽 기법을 통해 리샘플링(resampling) 하였다. 종속 변수인 일평균NO2관측소 자료는 점 기 반의 형태이기 때문에 격자 형태의 독립변수와 가장 가 까운 픽셀에서 매칭되었다.

2) 개발된 모델

(1) Multi Linear Regression

MLR은 두개 이상의 독립 변수와 종속 변수 간의 관 계를 선형 방정식을 통해 모델링하는 기법이며, MLR 방정식은 식(1)과 같다.

Y= β0+ β1X1+ β2X2+ … + βnXn+ ε (1) 여기서Y는 종속변수, X1, X2, …, Xn은 독립 변수를 의미 한다. 이때, n은 독립 변수의 개수이며β0는 상수 계수, β1,β2,…, βn은 회귀 계수이다. ε는MLR을 통해 추정되 는 예측값과 관측값 사이의 확률 오차를 의미한다.

(2) Regression Kriging

RK는 대표적인 단변량 공간 내삽 기법인 정규 크리깅 (ordinary kriging)에 대해 다변량의 변수를 반영하기 위 해MLR과 크리깅을 결합한 기법이다(Henglet al., 2007).

RK는MLR을 통해 독립 변수와 종속 변수 간의 선형 관 계를 모델링 한 후, 다중 선형 회귀식을 통해 설명되지 않은ε을 크리깅을 통해 내삽한다. 이때, ε에 대하여 기 댓값이0인 단순 크리깅(simple kriging)을 적용한다. MLR 과 단순 크리깅이 결합한 형태는 식(2)와 같다.

Y= β0+ β1X1+ β2X2+ … + βnXn+ ∑ipwi· e (2) ε= ∑ipwi· e (3) 여기서wii번째 샘플의 오차weight, ei번째 샘플의 오차 벡터를 의미한다. 그 이외 변수는 식(1)의 설명과 같다.

(3) Random Forest

RF는 데이터에 존재하는 규칙을 이진 분류(binary splitting) 과정을 통해 반복적으로 학습하여 최종적인 목표 값에 도달하는 의사결정나무(Classification and Regression Trees, CART)에 기반한 알고리즘이다(Breiman et al., 2001). RF는 복원 추출이 허용된 표본 추출 방법 인bootstrapping을 활용하여 무작위 복원 추출을 시행 하며, 이는 기존 의사결정나무에 존재하였던 과적합 (overfitting) 문제를 해결하는 것으로 알려져 있다. 입력 자료의 형식이Regression인 경우 다수의 의사결정나무 에서 나온 결과를 평균하여 최종적인 결과를 산출한다. RF는 이진 분류를 통하여 최종적으로 편차가 작고 평균적으로 정확도가 높은 예측값을 산출한다. 이 과정 에서 노드(node)의 불순도(impurity)를 최대한 낮추기 위 해 입력 변수 별Mean Decrease Impurity (MDI)를 계산 하여 변수 중요도를 산출한다. 대기질 연구 분야에서 기 계학습 모델의 변수 중요도를 계산하기 위해RF의 변 수 중요도 산출 방식이 주로 사용되어 왔다(Kamińskaet al., 2019; Zhuet al., 2019).

본 연구는Python기반의scikit-learn에서 제공하는 기계학습library (Random Forest Regressor)을 사용하였 으며, 파라미터 최적화 과정을 위해 나무의 개수(ntree)와 분류시 반영되는 변수의 개수(mtry)를 주요하게 고려하 였다(Houborg and McCaveet al., 2018). 연구기간 전체 동 안 일별RandomSearch를 수행하여ntreemtry에 대한 최 적화 파라미터 튜닝을 확인하였다. 따라서, n_estimators 는800, criterion는auto, 그 이외 파라미터는default로 설 정하여 수행하였다.

(4) Support Vector Regression

SVR은 불규칙적인 분포의 데이터를 학습하기 위하 여 최적의 초평면(hyperplane)을 찾고 학습에 최적인 차 원으로 데이터를 분리하는 알고리즘이다. SVR은 데이 터와 초평면의 마진(margin)을 최대화하는 최적의 초평 면을 찾기 위해 커널(kernel) 함수를 사용하며, 대표적으 로 많이 사용되는 커널 함수 종류에는Linear, Polynomial, Radial등이 있다(Liet al., 2019; Wanget al., 2019). 본 연구 는Matlab 2020b의fitrsvm함수를 사용하였다. 이때, 전체 연구기간 동안fitrsvm에서 제공하는Linear, Polynomial, RBF커널 함수에 대해 공간 내삽을 수행하여 높은 정확

(7)

도를 보인Linear커널 함수를 사용하였다. 그 이외, SVR 모델링시 고려되는Kernelscale에 대하여auto로 설정 하여 파라미터 최적화를 수행하였다(Boardman and Trappenberget al., 2006).

3) 모델 평가

본 연구는 개발된 모델을 검증하기 위해 관측소별 LOOCV를 수행하였으며, 가능한 날짜의40개 관측소 의 예측 값이 평가되었다. LOOCV는 충분한 수의 샘플 이 존재하지 않을 경우 기계 학습 모델의 타당성을 입 증하기 위해 사용되는 검증 방법이다. 기존의 공간 내 삽 모델 검증 시 개발된 모델을 평가하기 위해 주로 사 용되어 왔다(Choet al., 2020; Wuet al., 2018).

공간 내삽 모델 평가 시 상관계수(R), Root-Mean- Square-Error (RMSE), normalized RMSE (nRMSE), 가 사 용되었다. 또한, Index Of Agreement (IOA) 지표를 사용 하여 모델의 예측 오차 및 모델의 예측값과 관측값 간 분산의 유사성을 함께 평가하였다(4). IOA는[0, 1] 범위 내에서 모델의 성능을 평가하며, IOA의1의 값은 모델 의 예측 값과 관측 값이 완벽히 일치함을, 0의 값은 유사 성이 없음을 나타낸다(Willmottet al., 2012). nRMSE사 용시 관측 값의 표준 편차로 나눔으로써(5), RMSE내에 서 설명되지 않았던 관측값 분산 대비 예측값의 오차를 평가할 수 있다. nRMSE를 사용하여 관측소 위치 차이 에 따라 발생할 수 있는NO2농도의 변동으로 인한 오 차를 고려하였다.

IOA= 1 – , 0 ≤ IOA≤ 1 (4)

nRMSE= (5)

수식에서OiPi는 각각 관측 값과 모델의 예측값을 의미하며, O는 고려하는 기간의– NO2관측값의 평균을 의미한다. σ(O)는 고려하는 기간의NO2관측값의 표준 편차를 의미한다.

4. 연구 결과 및 토의

1) 모델 성능 결과 및 비교

Fig 3는 연구기간동안 전체11016개 샘플에 대하여 MLR, RK와RF, SVR모델들의 일별LOOCV검증 결과 를 나타낸다. 구축된 네 개의 모델은 모두0.88의R를 보 였으며, MLR과RK의IOA값은0.94, RF와SVR은0.93 으로 유사한 성능을 보였다. RK의nRMSE는0.4793%

으로MLR (0.4802%), RF (0.4825%), SVR (0.4876%)보다 상대적으로 낮은 오차를 나타냈다. 이는MLR로부터 산 출된 잔차 모델링 시, 잔차와NO2공간 분포가 자기 상 관성을 보였기 때문에, RK가MLR보다 낮은 오차를 보 였다고 판단된다(Henglet al., 2004; Harriset al., 2010).

Table 3은 연구기간 동안 관측소 별NO2농도의(< 5%), (5%, 95%), (> 95%) 구간 별 통계값을 의미한다. 전체 지 상NO2농도 샘플의90%가 분포되어 있는(5%, 95%) 구간에서MLR과RK, RF와SVR은 약0.84의 동일한 성 능을 보였다(Table 3). 반면에, (> 95%) 극댓값 구간에서

ni=1(OiPi)2

ni=1( | Pi– –O| + | Oi– –O| )2 σ(O)1 ∑ni=1(OiPi)2

n

Table 2. The daily LOOCV results of the MLR, RK, RF, and SVR models during the study period

Model MLR RK RF SVR

R 0.88 0.88 0.88 0.88

RMSE (ppm) 0.0063 0.0063 0.0064 0.0064

IOA 0.94 0.94 0.93 0.93

nRMSE (%) 0.4802 0.4793 0.4825 0.4876 Table 3. The daily LOOCV results of MLR, RK, RF, and SVR by NO2concentration ranges (i.e., lower than 5 %, 5 % -

95 %, and higher than 95 % per station) between January and December 2020

Model Extremely Low (< 5%) (N : 556) Low to High (5% to 95%) (N : 9904) Extremely High (> 95%) (N : 556)

MLR RK RF SVR MLR RK RF SVR MLR RK RF SVR

R 0.37 0.37 0.40 0.38 0.84 0.84 0.83 0.84 0.51 0.51 0.45 0.53

RMSE(ppm) 0.0043 0.0042 0.0041 0.0039 0.0063 0.0063 0.00064 0.0064 0.0080 0.0080 0.0082 0.0080

IOA 0.57 0.57 0.58 0.60 0.91 0.91 0.91 0.91 0.71 0.71 0.67 0.72

nRMSE

(%) 1.1942 1.1903 1.1454 1.1024 0.5552 0.5542 0.5575 0.5656 0.9941 0.9937 1.0195 0.9980

(8)

RF는0.45의R과0.0082 ppm의RMSE를 나타내며, MLR, RK, SVR보다 상대적으로 높은 오차를 나타냈다. 이는, RF에서 다수의 의사결정나무로부터 산출되는 결과를 단순평균 앙상블 평균하기 때문에 극댓값 구간에서 이 러한 한계점이 나타났다고 판단된다(Horninget al., 2013).

SVR은0.72의IOA와0.9980%의nRMSE값으로RF보 다 낮은 오차를 보였다. 또한, (< 5%)의 극솟값 구간에 서SVR의IOA값은0.60으로RF, MLR, RK와 비교하여 높았으며, 0.0039 ppm의RMSE를 보이며 상대적으로 낮은 오차를 나타냈다. 이는, SVR은 관측값 전체 구간 의 오차 범위를 줄이기 위해 모델링되기 때문에 극값 모 의 정확도가 높은 것으로 판단된다(Wanget al., 2015).

Fig. 4는 연구기간동안 두 선형회귀 모델(MLR, RK) 과 두 기계학습 모델(RF, SVR)의 일별LOOCV에 대한

일별 통계boxplot결과이다. MLR, RK, SVR의IOA평균 값은0.57, 0.58, 0.57로RF (0.50)에 비해 높은 수치를 보 인다(Fig. 4(a)). 또한, RF의R평균값은0.31로MLR (0.36), RK (0.37), SVR (0.35)보다 낮은 상관성을 보였다. MLR, RK, SVR의IOA와R평균값은 유사한 결과를 보였지만, MLR와RK의IOA표준 편차는0.12로SVR (0.13) 대비 안정된 성능을 나타낸다. MLR과RK를 비교하였을 때, 모두0.0062 ppm의RMSE값과0.57, 0.58의IOA로 유사 한 성능을 나타냈지만, nRMSE값에서RK (0.9483%)이 MLR (0.9501%)과 비교하여 상대적으로 낮은 오차를 보 였다. 이는, RK모델은MLR의 잔차 크리깅을 통한 오 차 개선이라고 생각된다.

Fig. 3. Density scatter plots between the predicted and observed NO2concentrations from LOOCV results using the (a) MLR, (b) RK, (c) RF and (d) SVR during the study period.

(9)

2) 모델 변수 중요도 분석

본 연구는 일별 기계학습 모델링을 진행하였기 때문 에 일별 모델의 차이가 존재할 수 있다. 또한, NO2의 공 간 분포에 영향을 끼치는 주요 변수들이 일별로 다르기 때문에boxplot을 통해서 변수 중요도를 분석하였다(Fig 5.). 변수별MDI를 평균했을 때, 상위5개의 변수는 위 도(0.169), 위성 기반NO2(0.091), NTL (0.084), 밤 시간 LST (0.075), 계절성NDVI (0.070)가 있었다. NO2는 동 풍 및 서풍으로 인해 서울 중심으로 집중된다. 도시 중 심으로 모인NO2는 도시풍과 곡풍의 순환으로 인해 서 울 남부 및 북부 지역 간의 이류가 발생으로 경도보다 위도의 기여도가 높았다고 생각된다(Ryuet al., 2013). 또 한, NTL, 밤 시간LST는 도시화로 인한 지표면의 인위 적 배출 요인을 반영하기 때문에NO2지도 표출 시 높 은 기여도를 보였음이 판단된다(Cuiet al., 2019).

토지 식생 활력도 증가에 따른 대기 오염물질의 감소 는 입증되어 왔으며, 이는NDVI와NO2농도 간의 음 의 상관성을 의미한다(Cuiet al., 2019). 이로 인해, 본 연 구에서 계절성NDVI의 기여도가 높았음을 판단된다.

8일 주기NDVI가 계절성NDVI보다 낮은 변수 중요도

를 나타냈다. 이는, 단기간의NDVI변동성 보다는 계절 변동성이NO2와 관련이 높기 때문으로 생각된다. 위성 기반NO2는 지상 농도를 포함한 대기 전층의NO2농도 Fig. 4. Boxplots of (a) IOA, (b) RMSE, (c) nRMSE, and (d) R from daily LOOCV results based on MLR,

RK, RF, and SVR for NO2gap filling during the study period of January, 2020 December, 2020.

Fig. 5. Relative variable importance identified by RF for daily NO2gap filling during the study period. X axis denotes Mean Decrease Impurity (MDI) in RF.

(10)

를 나타내지만, 기존NO2기계학습 모델링 연구 결과와 같이 지상NO2의 농도를 공간적으로 반영할 수 있다고 판단된다(Kanget al., 2021; Kimet al., 2021)

3) 공간 분포 분석

Fig. 6은 연구기간동안MLR, RK와RF, SVR의 일별

LOOCV에 의한RMSE, nRMSE결과를 지상관측소 별

로 나타내었다. 0.01 ppm과0.8%이상의 높은RMSE, nRMSE값을 나타낸7, 24, 28, 35번 관측소는 기계학습 모델과 비교하여 선형 회귀 모델에서 낮은 오차를 보 였다. 31번 관측소는RF의nRMSE값이0.34%로MLR (0.66%), RK (0.67%), SVR (0.57%)과 비교하여 낮은 오차 를 나타냈다. 하지만, 높은 오차를 보인 관측소 이외의 다수의 관측소에서MLR, RK, SVR의 유사한RMSE와

nRMSE분포를 확인하였다.

개발된 모델 중0.01 ppm이상의 높은RMSE값이 관

측된7, 24, 37번 관측소는 도로변대기측정소로 분류되

었다(Table 4). 이는, 도로변 대기 측정시 일자별 관측값

변동과 그에 따른 높은NO2농도가 반영되었다고 판단 된다. 또한, 7, 24, 37번 관측소는 높은nRMSE값이 산출 되었으며, 추가적으로28번 관측소에서RF (0.82%), 35 번 관측소에서SVR (0.81%) 로0.8%이상의 높은nRMSE 값이 나타났다(Table 4). 이는, 28번, 35번 관측소의 표준 편차는0.0115 ppm, 0.0113 ppm으로7번(0.0177 ppm), 24 번(0.0137 ppm), 37번(0.014 ppm) 관측소 대비NO2농도 의 표준 편차가 더 작았기 때문이다. RMSE, nRMSE에 서 낮은 정확도를 보인 관측소는 모두 도로변대기측정 망으로 분류되었으며, 인위적 배출원의 요인이 잦은 지 역에서는 모델링의 오차가 큰 것을 보여준다.

Fig. 7은MLR, RK와RF, SVR이 적용된 일별NO2공 간 내삽 지도를 계절별 평균하여 나타낸다. RF가 적용 된 사계절 지도는 선형 회귀 모델과SVR을 사용한 공간 내삽 모델 지도보다 스무딩(smoothing)된 양상을 보인 다(Fig. 7). 이는, RF모델이 앙상블 기반으로 좁은 예측 범위를 가지기 때문에 극값 예측의 어려움이 나타났다 고 판단된다(Horninget al., 2013; Kühnleinet al., 2014; Cho

Table 4. Accuracy metrics for the five selected stations that showed relatively high RMSE and nRMSE values Station

Number Station Name Standard Deviation of

observation values RMSE (ppm) nRMSE (%)

MLR RK RF SVR MLR RK RF SVR

7 Jeongneung-ro 0.0177 0.0124 0.0122 0.0125 0.0127 0.70 0.69 0.71 0.71 24 Gangbyeonbuk-ro 0.0137 0.0093 0.0093 0.0117 0.0101 0.68 0.68 0.85 0.74 28 Yeongdeungpo-ro 0.0115 0.0084 0.0084 0.0094 0.0086 0.73 0.73 0.82 0.75 35 Gangnam-daero 0.0113 0.0080 0.0080 0.0086 0.0091 0.71 0.71 0.76 0.81 37 Siheung-daero 0.0142 0.0130 0.0131 0.0139 0.0128 0.92 0.92 0.98 0.90 Fig. 6. (a) RMSE maps using time-series daily LOOCV results for each station based on MLR, RK, RF, and SVR during

the study period. (b) nRMSE maps using time-series daily LOOCV results for each station based on MLR, RK, RF, and SVR during the study period. In both (a) and (b), station numbers were labeled by latitude (i.e., the higher the latitude, the smaller the number).

(11)

et al., 2020). 선형 회귀 모델인MLR, RK와SVR의 공간 분 포는 유사한 양상을 보였으며, 동적인NO2공간 분포를 확인하였다(Fig. 7). 네 모델의 계절별 공간 분포는 서울 외곽 지역을 제외하고 유사한NO2농도 범위를 보이며, 겨울철 가장 높은NO2분포를 나타낸다(Fig. 7(d)). NO2 는 주로 화석 연료 배출을 통해 발생되며, 감소된 강수 와 대기순환으로 인해 안정된 대기상태로 겨울철 더 높 은 농도 값이 관측된다(Nguyenet al., 2015; Guptaet al., 2008). 또한, 네 모델에서 여름철에 가장 낮은NO2분포 가 나타난다(Fig. 7(b)). 이는, 아시안 몬순과 태풍으로 인 한 폭우에 의해 대기 중 오염 물질의 유실(washout)되고, 기온 상승으로 인한NO2광화학 산화율 증가했기 때문 이라고 판단된다(Yooet al., 2014; Caballeroet al., 2012).

5. 결론

본 연구는 서울 지역의 일별 지상NO2농도 지도 제 작을 위해 선형 회귀 기법인MLR, RF와 기계학습 알고 리즘인RF, SVR모델을 비교하였다. 네 모델 모두 다변 량 모델로 위성 기반 자료인TROPOMI NO2연직 농도, 밤낮 시간대의LST, NDVI, NTL, DEM과 인구 및 지형 학적 자료를 포함한 총17개의 변수가 활용되었다. 구 축된 네 모델의 일별LOOCV검증 결과, MLR, RK, SVR 의IOA평균값은 약0.57로 유사한 성능을 보였으며, RF (0.50)보다 상대적으로 높은 성능을 나타냈다. RK의 nRMSE값이0.4793%으로MLR (0.4702%)에 비해 상대 적으로 낮은 오차가 확인되었다. 이는, MLR로부터 산 출된 잔차가 공간 내삽을 통해 보완되었음을 의미한다.

Fig. 7. Maps of the averaged spatial distribution of daily gap filled NO2for (a) spring (March, April, May), (b) summer (June, July, August), (c) fall (September, October, November), and (d) winter (December, January, February) by model (i.e., MLR, RK, RF, and SVR). Han-river is masked and is shown as dark blue color.

(12)

계절별NO2농도 지도는 네 모델 모두 유사한 농도 양 상을 나타냈지만, MLR, RK, SVR모델에서RF에 비해 더 넓은NO2구간이 표출되었다. 반면, RF모델은 세 모 델과 비교하여 계절별 공간 분포와 산점도에서 극값 범 위 예측에 한계점을 확인하였다. 기존 대기 오염 물질 에 대한 공간 내삽 연구는 국가 단위로 수행되었으며, 많은 데이터가 모델링을 위해 학습된다. 본 연구는 서 울을 연구 지역으로 수행하였으며 국가 단위의 공간 내 삽 모델보다 적은 샘플을 사용하였다. MLR, RK와SVR 의 유사한 성능을 확인하였으며, 도시지역의 대기 오염 물질 공간 내삽 시 선형 회귀 모델 적용이 가능함이 판 단된다. 향후 연구에서 기상학적 입력변수인 재분석장 과 주요 인위적인 배출원인 교통량 자료를 활용 시 더 향상된 결과를 산출할 것을 기대한다.

사사

본 결과물은 환경부의 재원으로 한국환경산업기술 원의 환경보건디지털 조사기반 구축기술개발사업의 지원을 받아 연구되었습니다(2021003330001(NTIS: 148 5017948)).

References

Boardman, M. and T. Trappenberg, 2006. A heuristic for free parameter optimization with support vector machines, Proc. of In the 2006 IEEE International Joint Conference on Neural Network, Vancouver, BC, CAN, Jul. 16-21, pp. 610-617.

Boersma, K.F., H.J. Eskes, J.P. Veefkind, E.J. Brinksma, R.J. van der A, M. Sneep, G.H.J. van den Oord, P.F. Levelt, P. Stammes, J.F. Gleason, and E.J.

Bucsela, 2007. Near-real time retrieval of tropospheric NO2 from OMI, Atmospheric Chemistry and Physics, 7(8): 2103-2118.

Breiman, L., 2001. Random forests, Machine Learning, 45(1): 5-32.

Caballero, S., R. Esclapez, N. Galindo, E. Mantilla, and

J. Crespo, 2012. Use of a passive sampling network for the determination of urban NO2spatiotemporal variations, Atmospheric Environment, 63: 148-155.

Chao, Z., L. Wang, M. Che, and S. Hou, 2020. Effects of different urbanization levels on land surface temperature change: taking tokyo and shanghai for example, Remote Sensing, 12(12): 2022.

Chen, J., K. de Hoogh, J. Gulliver, B. Hoffmann, O. Hertel, M. Ketzel, M. Bauwelinck, A. van Donkelaar, U.A. Hvidtfeldt, K. Katsouyanni, N.A.H. Janssen, R.V. Martin, E. Samoli, P.E. Schwartz, M. Stafoggia, T. Bellander, M. Strak, K. Wolf, D. Vienneau, R.

Vermeulen, B. Brunekreef, and G. Hoek, 2019.

A comparison of linear regression, regularization, and machine learning algorithms to develop Europe-wide spatial models of fine particles and nitrogen dioxide, Environment International, 130: 104934.

Cho, D., C. Yoo, J. Im, Y. Lee, and J. Lee, 2020.

Improvement of spatial interpolation accuracy of daily maximum air temperature in urban areas using a stacking ensemble technique, GIScience and Remote Sensing, 57(5): 633-649.

Choi, H., Y. Kang, and J. Im, 2021. Estimation of TROPOMI- derived Ground-level SO2Concentrations Using Machine Learning Over East Asia, Korean Journal of Remote Sensing, 37(2): 275-290 (in Korean with English abstract).

Christensen, R., 2020. Plane answers to complex questions:

the theory of linear models, Springer Science and Business Media, Berlin, GER.

Cui, Y., L. Jiang, W. Zhang, H. Bao, B. Geng, Q. He, L. Zhang, and D.G. Streets, 2019. Evaluation of China’s environmental pressures based on satellite NO2 observation and the extended STIRPAT model,International Journal of Environmental Research and Public Health, 16(9): 1487.

Cui, Y., W. Zhang, H. Bao, C. Wang, W. Cai, J. Yu, and D.G. Streets, 2019. Spatiotemporal dynamics of nitrogen dioxide pollution and urban development:

(13)

Satellite observations over China, 2005-2016, Resources, Conservation and Recycling, 142:

59-68.

Draper, N.R. and H. Smith, 1998. Applied regression analysis, Third Edition (Vol. 326), John Wiley and Sons, Hoboken, NJ, USA.

Ghahremanloo, M., Y. Lops, Y. Choi, and S. Mousavinezhad, 2021. Impact of the COVID-19 outbreak on air pollution levels in East Asia, Science of the Total Environment, 754: 142226.

Goldberg, D.L., S.C. Anenberg, D. Griffin, C.A. McLinden, Z. Lu, and D.G. Streets, 2020. Disentangling the impact of the COVID-19 lockdowns on urban NO2from natural variability, Geophysical Research Letters, 47(17): e2020GL089269.

Gräler, B., M. Rehr, L. Gerharz, and E. Pebesma, 2012.

Spatio-temporal analysis and interpolation of PM10 measurements in Europe for 2009, ETC/ACM Technical Paper, 8: 1-29.

Guo, Z., S.D. Wang, M.M. Cheng, and Y. Shu, 2012.

Assess the effect of different degrees of urbanization on land surface temperature using remote sensing images, Procedia Environmental Sciences, 13:

935-942.

Gupta, A. K., K. Karar, S. Ayoob, and K. John, 2008.

Spatio-temporal characteristics of gaseous and particulate pollutants in an urban region of Kolkata, India, Atmospheric Research, 87(2): 103-115.

Harris, P., A.S. Fotheringham, R. Crespo, and M.

Charlton, 2010. The use of geographically weighted regression for spatial prediction: an evaluation of models using simulated data sets, Mathematical Geosciences, 42(6): 657-680.

Hengl, T., G.B. Heuvelink, and A. Stein, 2004. A generic framework for spatial prediction of soil variables based on regression-kriging, Geoderma, 120(1-2):

75-93.

Hengl, T., G.B. Heuvelink, and D.G. Rossiter, 2007. About regression-kriging: From equations to case studies, Computers and Geosciences, 33(10): 1301-1315.

Holben, B.N., 1986. Characteristics of maximum-value composite images from temporal AVHRR data, International Journal of Remote Sensing, 7(11):

1417-1434.

Horning, N., 2013. Introduction to decision trees and random forests, American Museum of Natural History, Manhattan, NY, USA.

Ialongo, I., H. Virta, H. Eskes, J. Hovila, and J. Douros, 2020. Comparison of TROPOMI/Sentinel-5 Precursor NO2observations with ground-based measurements in Helsinki, Atmospheric Measurement Techniques, 13(1): 205-218.

Houborg, R. and M.F. McCabe, 2018. A hybrid training approach for leaf area index estimation via Cubist and random forests machine-learning, ISPRS Journal of Photogrammetry and Remote Sensing, 135: 173-188.

Kamińska, J.A., 2019. A random forest partition model for predicting NO2concentrations from traffic flow and meteorological conditions, Science of the Total Environment, 651: 475-483.

Kang, Y., H. Choi, J. Im, S. Park, M. Shin, C.K. Song, and S. Kim, 2021. Estimation of surface-level NO2and O3concentrations using TROPOMI data and machine learning over East Asia, Environmental Pollution, 288: 117711.

Kim, M., D. Brunner, and G. Kuhlmann, 2021. Importance of satellite observations for high-resolution mapping of near-surface NO2by machine learning, Remote Sensing of Environment, 264: 112573.

Kim, S. Y., S.J. Yi, Y.S. Eum, H.J. Choi, H. Shin, H.G.

Ryou, and H. Kim, 2014. Ordinary kriging approach to predicting long-term particulate matter concentrations in seven major Korean cities, Environmental Health and Toxicology, 29:

e2014012.

Krotkov, N. A., C.A. McLinden, C. Li, L.N. Lamsal, E.A.

Celarier, S.V. Marchenko, W.H. Swartz, E.J.

Bucsela, J. Joiner, B.N. Duncan, K.F. Boersma, J.P. V, Pieternel F. Levelt, V.E. Fioletov, R.R.

(14)

Dickerson, H. He, Z. Lu, and D.G. Streets, 2016.

Aura OMI observations of regional SO2and NO2 pollution changes from 2005 to 2015, Atmospheric Chemistry and Physics, 16(7): 4605-4629.

Kühnlein, M., T. Appelhans, B. Thies, and T. Nauss, 2014. Improving the accuracy of rainfall rates from optical satellite sensors with machine learning–A random forests-based approach applied to MSG SEVIRI, Remote Sensing of Environment, 141:

129-143.

Li, J. and A.D. Heap, 2014. Spatial interpolation methods applied in the environmental sciences: A review, Environmental Modelling and Software, 53: 173- 189.

Li, X., A. Luo, J. Li, and Y. Li, 2019. Air pollutant concentration forecast based on support vector regression and quantum-behaved particle swarm optimization, Environmental Modeling and Assessment, 24(2): 205-222.

Lin, J.T., Z. Liu, Q. Zhang, H. Liu, J. Mao, and G. Zhuang, 2012. Modeling uncertainties for tropospheric nitrogen dioxide columns affecting satellite-based inverse modeling of nitrogen oxides emissions, Atmospheric Chemistry and Physics, 12(24):

12255-12275.

LUINTEL, N., W. Ma, Y. Ma, B. Wang, and S. SUBBA, 2019. Spatial and temporal variation of daytime and nighttime MODIS land surface temperature across Nepal, Atmospheric and Oceanic Science Letters, 12(5): 305-312.

Nguyen, H.T., K.H. Kim, and C. Park, 2015. Long-term trend of NO2in major urban areas of Korea and possible consequences for health, Atmospheric Environment, 106: 347-357.

Oliver, M.A. and R. Webster, 2014. A tutorial guide to geostatistics: Computing and modelling variograms and kriging, Catena, 113: 56-69.

Park, S., J. Im, S. Park, and J. Rhee, 2017. Drought monitoring using high resolution soil moisture through multi-sensor satellite data fusion over

the Korean peninsula, Agricultural and Forest Meteorology, 237: 257-269.

Park, S., M. Kim, and J. Im, 2021. Estimation of Ground-level PM10and PM2.5Concentrations Using Boosting-based Machine Learning from Satellite and Numerical Weather Prediction Data, Korean Journal of Remote Sensing, 37(2): 321-335 (in Korean with English Abstract).

Ren, X., Z. Mi, and P.G. Georgopoulos, 2020. Comparison of Machine Learning and Land Use Regression for fine scale spatiotemporal estimation of ambient air pollution: Modeling ozone concentrations across the contiguous United States, Environment International, 142: 105827.

Ryu, Y.H., J.J. Baik, K.H. Kwak, S. Kim, and N. Moon, 2013. Impacts of urban land-surface forcing on ozone air quality in the Seoul metropolitan area, Atmospheric Chemistry and Physics, 13(4): 2177- 2194.

Shukla, K., P. Kumar, G.S. Mann, and M. Khare, 2020.

Mapping spatial distribution of particulate matter using Kriging and Inverse Distance Weighting at supersites of megacity Delhi, Sustainable Cities and Society, 54: 101997.

Sun, S., J.D. Stewart, M.N. Eliot, J.D. Yanosky, D.

Liao, L.F.Tinker, C.B. Eaton, E.A. Whitsel, G.A.

Wellenius, 2019. Short-term exposure to air pollution and incidence of stroke in the Women’s Health Initiative, Environment International, 132: 105065.

EPA (United States Environmental Protection Agency), 2013. Integrated Science Assessment (ISA) of Ozone and Related Photochemical Oxidants Final Report, EPA, Washington, DC, USA.

Vienneau, D., K. de Hoogh, M.J. Bechle, R. Beelen, A.

van Donkelaar, R.V. Martin, D.B. Millet, G.

Hoek, and J.D. Marshall, 2013. Western European land use regression incorporating satellite-and ground-based measurements of NO2 and PM10, Environmental Science and Technology, 47(23):

(15)

13555-13564.

Wang, J., S. Qin, Q. Zhou, and H. Jiang, 2015. Medium- term wind speeds forecasting utilizing hybrid models for three different sites in Xinjiang, China, Renewable Energy, 76: 91-101.

Wang, L., H. Liu, H. Su, and J. Wang, 2019. Bathymetry retrieval from optical images with spatially distributed support vector machines, GIScience and Remote Sensing, 56(3): 323-337.

Willmott, C.J., S.M. Robeson, and K. Matsuura, 2012. A refined index of model performance, International Journal of Climatology, 32(13): 2088-2094.

Wanninkhof, R., 2014. Relationship between wind speed and gas exchange over the ocean revisited, Limnology and Oceanography: Methods, 12(6):

351-362.

WHO (World Health Organizations), 2005. Particulate matter, ozone, nitrogen dioxide and sulfur dioxide.

In Air Quality Guidelines: Global Update, 2005.

http://www.euro.who.int/__data/assets/pdf_file/00 05/78638/E90038.pdf, Accessed Aug. 15, 2016.

Wu, C.D., Y.T. Zeng, and S.C.C. Lung, 2018. A hybrid kriging/land-use regression model to assess PM2.5 spatial-temporal variability, Science of the Total Environment, 645: 1456-1464.

Wu, S., B. Huang, J. Wang, L. He, Z. Wang, Z. Yan, X. Lao, F. Zhang, R. Liu, and Z. Du 2021.

Spatiotemporal mapping and assessment of daily ground NO2concentrations in China using high- resolution TROPOMI retrievals, Environmental Pollution, 273: 116456.

Yoo, J.M., Y.-R. Lee, D. Kim, M.-J. Jeong, W.R.

Stockwell, P.K.Kundu, S.-M. Oh, D.-B. Shin, and S.-J. Lee, 2014. New indices for wet scavenging of air pollutants (O3, CO, NO2, SO2, and PM10) by summertime rain, Atmospheric Environment, 82: 226-237.

Zhan, Y., Y. Luo, X. Deng, K. Zhang, M. Zhang, M.L.

Grieneisen, and B. Di, 2018. Satellite-based estimates of daily NO2 exposure in China using hybrid random forest and spatiotemporal kriging model, Environmental Science and Technology, 52(7): 4180-4189.

Zhu, Y., Y. Zhan, B. Wang, Z. Li, Y. Qin, and K.

Zhang, 2019. Spatiotemporally mapping of the relationship between NO2pollution and urbanization for a megacity in Southwest China during 2005- 2016, Chemosphere, 220: 155-162.

Zúñiga, J., M. Tarajia, V. Herrera, W. Urriola, B. Gómez, and J. Motta, 2016. Assessment of the possible association of air pollutants PM10, O3, NO2with an increase in cardiovascular, respiratory, and diabetes mortality in Panama City: a 2003 to 2013 data analysis, Medicine, 95(2): e2464.

(16)

Appendix S1. Density scatter plots based on the daily LOOCV results of the (a) MLR, (b) RK, (c) RF and (d) SVR models for the extremely low NO2concentration range (i.e., lower than 5% per station) during the study period.

(17)

Appendix S2. Density scatter plots based on the daily LOOCV results of the (a) MLR, (b) RK, (c) RF and (d) SVR models from the low to high NO2concentration range (i.e., between 5% and 95% per station) during the study period.

(18)

Appendix S3. Density scatter plots based on the daily LOOCV results of the (a) MLR, (b) RK, (c) RF and (d) SVR models for the extremely high NO2concentration range (i.e., higher than 95% per station) during the study period.

Referensi

Dokumen terkait

The 2018 Closing the Gap report appears to suggest that the 2017 evaluation report provides a justification for its continu- ation:‘An independent evaluation of the program conducted by