• Tidak ada hasil yang ditemukan

3.3 데이터 처리 과정

3.3.2 데이터 전처리 과정

데이터 분석에는 그에 적합한 데이터 셋이 필요하며 데이터 전처리과정은 수 집된 미가공 데이터를 재구성하여 분석을 용이하게 하기 때문에 데이터 분석에 있어 가장 중요한 단계 중 하나이다. (Han et al., 2011) Fig. 3.8은 데이터 과학 자를 대상으로 한 설문조사 결과를 나타낸다. 이에 따르면, 데이터 분석에 있어 80%의 과정이 데이터 수집 및 전처리에 사용된다. (Forbes, 2016)

Fig. 3.8 The time spent by data scientists to analyze data Source : https://www.forbes.com/

본 연구에서는 결측값 (Missing value)과 이상치 (Outlier) 처리과정을 통해 데이 터 정제 (Data cleaning) 하였으며, 데이터 필터링 (Filtering), 요약 (Aggregation) 을 데이터 변환 (Data Transformation)을 통해 데이터를 재구성하여 분석에 용이 하게 데이터를 전처리하였다.

Table 3.14는 본 연구에서 수집된 AIS 데이터 중 결측값 처리에 대해 나타낸 다. 본 연구에서 수집된 전체 1,822척 (100.0%)의 선박 중에 52척 (2.6%)의 선박

에 대하여 결측값이 발생하였다. AIS의 경우 선박 자신의 정보를 송출하고 동 시에 다른 선박의 정보를 받아들여 주위 상황판단에 도움을 주는 매우 중요한 시스템이나, 선박 운항자의 AIS 정보의 미 기입, 전파송신오류로 인한 AIS 오류 는 의사결정에 지장을 줄 수 있다. (Kim et al., 2014) 본 연구에서는 AIS 오류 가 발생한 46건에 대해 자료의 신뢰도가 떨어진다고 판단하였으며, 결측치를 처리하는 기법의 하나인 완전 제거법 (List-wise deletion)을 활용하여 완전히 제 거하였다. 그러나 Olinsky et al. (2003)에 따르면, 완전 제거법을 통한 결측치의 제거는 통계적 검증력에 영향을 미치므로, 본 연구에서는 G*power 3.1.7.9를 통 한 통계적 검증력 검정을 통해 정제된 표본의 크기가 충분한 표본의 검증력이 확보되었는지 분석하였다.

Target

marine structures Collected AIS data Missing values Target values

Donghae gas field 143(100.0%) 5(4.0%) 138(96.0%)

Incheon bridge 982(100.0%) 22(2.2%) 960(97.8%)

Busan harbor bridge 840(100.0%) 24(2.9%) 816(97.1%)

Total 1,971(100.0%) 52(2.6%) 1,919(97.4%)

Table 3.14 Result of missing values treatment by data pre-processing

GPS 위치 오류로 인해 발생하는 이상치에 대해서는 MaTSAS 프로그램을 통 해 이상치가 제거되었고, 제거된 이상치는 평활화 (Smoothing) 작업을 거쳐 가 장 가까운 두 위치의 평균값으로 대체되었다.

AIS 데이터를 통해 얻을 수 있는 정보는 동적정보와 정적정보가 있다. 본 연 구에서는 선박 안전이격거리를 분석하기 위해 AIS의 미가공 데이터 중에서 동

적정보의 GPS position, 선수방위 (heading), 대수속력 (speed over ground), 정 적정보의 해상이동업무식별부호 (MMSI), 선박의 치수 (dimensions of the ship), 선종 (type of cargo), 총 톤수 (Gross Tonnage)에 대한 정보만을 활용하기 위해 데이터 필터링하였다. 필터링된 AIS 데이터는 선박의 선수방위를 기준으로 입 항선과 출항선, Inbound, Outbound 통항을 구분하였다.

동해가스전의 대상선박은 길이별로 분류하여 Table 3.15와 같이 나타내었다.

상대적으로 규칙적인 선박 항적을 선박 길이별로 분석하기 위해 50m 이상의 상선을 대상으로 데이터 요약을 하였으며 Small (50m-100m), Medium (100m-200m), Large (200m over)로 데이터를 구획화 하였다.

Classification

Size Ship’s length(m)

Small 50-100

Medium 100-200

Large 200 over

Table 3.15 Classification of ship’s length in donghae gas field

인천대교의 경우, National Law Information Center (2017)의 인천항·경인항 선박통항규칙에 의해 총 톤수 5만 톤을 기준으로 단독통항 (이하 1-way), 교행 통항 (이하 2-way)으로 분류된다. Table 3.16은 인천항·경인항 선박통항규칙을 기준으로 본 연구에서 분류한 대상선박을 나타낸다.

Classification

GT

Cargo Tanker, Passenger

2-way 5K < < 50K 1K < <50K

1-way 50K <

Table 3.16 Classification of the ships by passage rules at the Incheon bridge

Source : National Law Information Center, https://www.law.go.kr/

반면에 부산항대교의 경우, 별도의 선박통항규칙이 존재하지 않는다. 본 연구 에서는 선박의 규칙적인 통항분포를 통해 안전거리를 도출하기 위하여 상대적 으로 통항에 자유로운 소형선박을 제외하였다. 선박의 크기에 대한 기준은 해 상교통공학 (Fujii et al., 1981)에서 규정하는 선박의 크기 분류법을 활용하여 1,000GT 이하의 선박은 데이터 요약 작업을 통해 제거하였다. Table 3.17은 본 연구에서 부산항대교 대상선박 선정에 활용한 선박 크기 분류법을 나타낸다.

Classification

LOA(m) Standard Deviation

Size GT

Small 0-1K 48 ±20

Medium 1K-10K 104 ±20

Large 10K over 240 ±50

Table 3.17 Classification of ship size according to marine traffic engineering

해상교통조사 기간은 교통량의 주간 변동을 고려하여 해상교통조사 기간 6-7 일 이상의 표본조사 데이터를 활용하여야 한다. (Tsuji, 1996) Table 3.18은 본 연구의 데이터 수집 기간 및 데이터 분석에 활용된 선박의 총 척수를 나타낸 다.

Date Target Status Number of ships

Jan, 26. ~ Apr, 23.

2019

Donghae gas field

Small 43

Medium 62

Large 33

Jun, 01. ~ 30.

2019

Incheon bridge

2-way

Arrival 487

Departure 412

1-way

Arrival 30

Departure 31

Busan harbor

bridge 2-way

Arrival 409

Departure 407

Table 3.18 Data collection period and the number of ships

위의 모든 결과를 종합하여 전처리된 데이터를 바탕으로 항만의 특성에 맞는 신뢰구간의 범위를 분석하여 각각의 통항분포 특성에 맞는 선박 안전이격거리 를 분석하였다. 통항분포분석에는 R studio 3.6.3 version을 활용하였으며, Fig.

3.9는 데이터 전처리 및 분석과정을 나타낸다.

Fig. 3.9 Overview of data pre-processing and processing method

제 4 장 항만횡단 해상교량의 선박 안전이격거리 분석

4.1 선박 통항분포 분석

선박의 통항에 있어 통항분포와 통항패턴은 선박의 흐름을 이해하고 분석하 는 아주 중요한 역할을 하며, 일찍이 많은 연구가 수행되었다. Inoue (1977)는 왕복항로 및 편도항로에서의 선박 통항은 정규분포를 따른다는 것을 검증하였 다. Kim and Kwon (2017)은 목포대교와 인천대교의 충돌확률 분석 시 통항 분 포를 정규분포로 가정하였으며, Nguyen et al. (2013)은 AIS 전 처리 프로그램 개발을 위하여 대상해역에서의 선박 분포를 정규분포로 분석하였다. 본 연구에 서는 항만의 특성에 따라 다르게 설계된 항로배치 및 항만횡단 해상교량에 따 라 통항분포의 특성을 비교하기 위해 통항분포의 특성을 분석하였다.

4.1.1 통계적 검증력 분석

본 연구에서는 통항분포 특성 비교 수행에 앞서, 취득한 자료의 표본 수가 통계적 검증력을 충분히 가지는지에 대하여 분석하였다. 본 연구에서는 Cohen (1988)이 제안한 효과 크기 (Effect size)에 따른 통계적 검증력 분석을 수행하 였다. 효과 크기는 데이터에 대한 표준편차로 나눈 두 평균 사이의 연관정도를 말하며, 연구되는 현상이 실제로 모집단에 존재하는 정도를 나타낸다. 이를 Cohen’s d라고 하며, 효과 크기가 낮을수록 많은 표본 수가 필요하다. Table 4.1은 Cohen (1988)이 제안한 Cohen’s d를 나타낸다.

Effect size Cohen’s d

Small 0.20

Medium 0.50

Large 0.80

Table 4.1 Effect size suggested by Jacob Cohen

Cohen(1988)은 Type I error ()와 Type II error (β)를 활용하여 Type I error ()가 0.05, Statistical Power (1−β)가 0.8 수준이 될 때 표본의 통계적 검증력 이 확보된다고 제안하였다. 여기서 Type I error ()는 참인 귀무가설을 기각할 확률 (p-value)을 말하며, Type II error (β)는 잘못된 귀무가설을 기각하지 못 할 확률을 말한다. (Sheskin, 2004) Table 4.2는 Type I error와 Type II error의 도표화 된 관계를 나타낸다.

 Table of error types

Null hypothesis (H0)

True False

Decision about Null hypothesis

Don't reject

Correct inference (true negative) (probability = 1−)

Type II error (false negative) (probability = β) 

Reject

Type I error (false positive) (probability = )

Correct inference (true positive) (probability = 1−β) Table 4.2 Relations between truth/falseness of the null hypothesis

Cohen‘s d는 식 (1)과 같이 정의된다.

′   

 

(1)

여기서, 는 대상 분포의 평균, 는 귀무가설의 평균, 는 대상 분포의 표 준편차를 나타낸다. 서로 다른 독립된 두 개의 정규분포에 대한 효과 크기를 구할 경우의 표준편차 에 대해 식 (2)와 같이 정의된다.

 

  

   

(2)

여기서, 는 대상 분포의 표준편차, 는 각 그룹에 대한 표본 수를 나타낸

다. 각 그룹에 대한 분산은 식 (3)와 같이 정의된다.

  

  

   (3)

여기서, 번째 그룹의 분산, 번째 그룹의 표본 수,   번 째 그룹의 번째 표본의 값, 번째 그룹의 평균을 나타낸다.

AASHTO (2009)에서는 교량의 연간붕괴빈도 (AF)를 계산하기 위하여 교량의 설계단계에서 특정 대상선박을 지정하여 기하학적 충돌확률 (PG)을 산정한다.

여기서 기하학적 충돌확률은 통항분포를 정규분포로 가정하여 분포의 평균을 통항 수역의 중심선, 표준편차를 LOA로 설정하여 분포를 모델링한다. Fig. 4.1 은 AASHTO에서

Fig. 4.1 Geometric Probability of Pier Collision

Fig. 4.1에서 가 정규분포  을 가질 때, 는 식 (4)와 같다.

  



 ∞

  

 

 (4) 여기서, 는 정규분포의 Z-score에 따라 결정되는 표본분포함수, 는 충돌점의 Z-score를 나타낸다. Z-score 범위에 따른 충돌확률 는 식 (5)와 같 다.

   (5) 국내의 해상교통안전진단 시행지침에서는 선박조종시뮬레이션의 통항 안전성 평가 시, 를 통해 충돌확률이 10-4 이하일 경우 안전성이 확보된 것으로 평 가하고 있다. 그러나 AASHTO (2009)에서는 Ship Impact Zone 설정 시, 교각의 폭과 선박의 폭을 고려하여 식 (6), 식 (7)과 같이 , 를 설정하여 Z-score를 계산한다.

  

 

(6)

  

 

(7) 여기서, 은 교각 안쪽과 가장 근접한 Z-score의 범위, 는 교각 주 탑 바깥쪽과 가장 근접한 Z-score의 범위, 는 교각 주탑의 중심선과 항로의 중심선 사이의 거리, 은 선박의 폭, 는 교각 주탑의 폭, 는 분포의 표준편차를 나타낸다. 이를 바탕으로 계산되는 는 식 (8)과 같다.

        (8) 본 연구에서는 선행연구에서 제안한 를 0.05, (1−β)를 0.80으로 설정하였으 며. 귀무가설의 평균은 항로 폭의 중심선으로 설정하여 일 표본 t-test를 통한 Sample size 검증을 수행하였다. Table 4.3은 통계 프로그램인 G*power 3.1.9.7 을 통해 통계적 검증력을 분석한 결과이다. 그 결과, 통계적 검증력을 확보하기 위한 표본 수의 기준을 만족하는 것으로 분석되었다.

Classification

Incheon bridge Busan harbor bridge

2-way 1-way 2-way

Arrival Departure Arrival Departure Arrival Departure Count

(Sample size) 487 412 30 31 409 407

Effect size 0.47 0.67 0.55 0.89 0.68 1.93

Sufficient

Sample size 39 20 28 12 19 5

Table 4.3 Verification of sample size for target bridges across waterways

4.1.2 통항분포 정규성 검정

교통량에 따라 상이하지만 왕복항로 통항 시, 별도의 통항 분리시설이 없는 경우 선박은 항로 중심에서 선수방향의 우측으로 통항 폭의 0.1배만큼 편위하 여 통항한다. (Inoue, 1977) 이러한 특성을 반영하여 본 연구에서는 선박 선수방 향의 우측에 있는 주탑과의 이격거리에 대하여 측정하였으며 그 분포가 정규성 을 가지는지에 대한 정규성 검증을 수행하였다.

정규성 검증에는 여러가지 통계적 기법이 존재한다. 완벽한 정규분포의 경우, 왜도 (Skewness)의 값은 0이며 첨도 (kurtosis)의 값은 3이다. 여기서 왜도는 분 포의 편포 (skewed)를 측정하는 요소로, 왼쪽 편포의 경우에는 왜도값이 (–)로 측정되고 오른쪽 편포의 경우에는 왜도값이 (+)로 측정된다. 첨도는 분포에서 뾰족한 정도를 말한다. 정규분포보다 중심이 높아 뾰족한 경우에는 첨도값이 양수로 나오고 분포가 퍼진 경우에는 음수값을 가진다. 첨도의 경우, 분석을 용 이하게 하기 위해 첨도의 기준에서 3을 뺀 0을 기준으로 활용하고 있다. 이를 첨도의 초과량 (Excess kurtosis)라고 한다. (Triola, 1992) 왜도와 첨도의 초과량 에 대한 산출 식은 식 (9), 식 (10)과 같다.