4. 중요 장소 추출 알고리즘
4.2. 제안 기법
4.2.3. 관측 장소 추출
47
되는 유사군 들을 융합하는 과정을 수행할 필요성이 있으며 이 과 정을 추후 절차에서 수행한다.
[그림 10] 측위 정보에 의한 위치 파편화 발생 예시
추후 절차를 통해 파편화된 SP을 합치는 과정이 존재하므로 정 지된 장소를 오류 없이 정확히 인지하여 이후의 과정에 전달하는 것이 이 단계에서 중요하게 고려해야 할 사항 중 하나이다. 그렇기 때문에 알고리즘의 파라미터를 파편화가 다수 발생하더라도 빠짐없 이 SP를 인지할 수 있도록 보수적으로 설정하는 것이 적절하다고 할 수 있다. 본 연구에서는 실험을 통해 SP 추출 알고리즘의 파라미 터를 ePs는 0.001, minPts는 5, minTime은 2분, maxSpeed는 8km/h으 로 설정하였다.
48
인지할 수 있는 장소를 얻을 수 있다. SP들은 밀도기반 클러스터링
기반으로 변형된 알고리즘을 사용하였다는 점과 정확한 SP들을 획 득하기 위해 알고리즘의 파라미터를 보수적으로 설정하였기 때문에 사용자의 실제적 머무름보다 더 작은 단위로 나누어져 있다고 할 수 있다. 이러한 SP들의 집합 S로부터 관측 장소 OP를 획득하기 위 해서는 이들을 효과적으로 합쳐나갈 수 있는 방법론이 필요하다.
따라서 이 단계에서는 위의 과정을 통해 획득한 SP에 대하여 유사한 특성을 지니는 SP들을 취합하는 과정을 통해 OP를 구성하는 과정을 진행한다. 본 연구에서는 SP를 합치기 위한 가정으로 만약
위치 좌표를 획득하는 물리적 원천 (source)이 같은 경우에는 중앙
집중형 분포 형태로 나타날 것이라는 것을 가정하였으며, OP는 이 분포로부터 추론된 집합으로 정의하였다.
OP는 위치 데이터로부터 얻을 수 있는 장소 정보로 앞서 언급 한 바와 같이 센서의 특성이나 환경적 영향을 받는다. 이러한 측정 장비들은 일반적으로 측정 오차들이 존재하며, 이러한 오차들은 데 이터가 충분하게 확보된 경우에는 중앙 집중형 분포로 나타나게 되 고 이러한 사실로부터 착안하여 OP를 획득하는 과정에 Chebyshev’s
부등식(inequality)를 활용하도록 하였다. Chebyshev’s 부등식 기반 방
법론은 중앙 집중형 분포들에 대해 성립할 수 있는 부등식이라는 장점과, 일반적인 클러스터링 방법들에 비해 파라미터에 민감하지
않다는 장점이 있다. Chebyshev's 부등식은 중앙 집중형의 임의의 분
포에 대해서 성립하는 부등식으로 다음의 수식과 같다. 이때 = [ ] 이고 = [( − )( − ) 이다.
Pr ( − ) ( − ) > ≤
49
이 부등식이 의미하는 것은 구간 (μ − kσ, μ + kσ)밖에 존재하는
값들이 k에 따른 특정 비율을 초과하지 않는다는 의미이다. k가 √2
이면 구간 밖에 존재하는 값들이 50%를 초과하지 않는다는 의미이
다. ST들간의 융합여부를 판단하기 위해 각 SL 또는 OP 내에 존재하
는 위치 좌표들에 대하여 비교대상이 되는 두 SL 또는 OP의 분포와
Chebyshev's 부등식을 만족하면 해당 좌표들이 포함된 클러스터를
융합하는 방식으로 진행하였으며, 이 조건을 수식으로 정리하면 아 래의 식과 같다. 이 때 은 평가의 대상이 되는 위치 좌표이고,
( , )와 ( , )는 비교 대상이 되는 SL 또는 OP의 평균과 분산이
다.
( − ) ( − ) < && − − <
추가적으로 앞의 ST 탐색 과정에서 획득한 좌표에 대한 이웃의 수 w를 위치 좌표에 대한 가중치로 사용하여 가중 평균과 가중 공 분산을 사용하여 위의 과정을 수행하였다. 이러한 변경을 통해 연쇄
현상 (chaining phenomenon)이 발생하는 것을 방지하도록 시도하였
다. 연쇄 현상은 하나의 데이터 포인트로 인해 의도치 않게 유사하 지 않은 클러스터들이 지속적으로 융합되는 현상을 의미하며 응집
(agglomerative) 클러스터링을 수행할 때 연쇄적으로 합쳐지는 현상
을 의미하고, 클러스터링 결과의 품질에 큰 영향을 미칠 수 있는 문
제이다. 아래의 [그림 11]은 이러한 연쇄 현상이 발생할 수 있는 예
시를 나타낸 것이다. 점선은 각각 군집의 평균과 분산을 기준으로 생성한 경계이고, 실선은 이웃의 수 w를 가중치로 이용한 가중 평 균과 분산을 사용하였을 시의 경계선을 보여준다. 적색 별표는 연쇄 현상을 발생시킬 수 있는 데이터로 두 클러스터가 합쳐지게 하는
50
요인을 제공해 주는 좌표라고 할 수 있으며, 가중 평균과 분산을 사 용하면 이러한 현상의 발생이 완화될 수 있음을 확인할 수 있다. 이 러한 가중치의 적용은 SL을 획득하는 과정에서 배제된 관측 좌표들 에 대한 정보를 적용함으로써 좀 더 안정적이고 풍부한 정보를 기 반으로 분포를 구성할 수 있다는 점에 기인한 것으로 판단된다.
[그림 11] 가중치 사용에 따른 OP 융합 과정의 차이 예시
이러한 일련의 과정들을 주어진 데이터 포인트들로부터 더 이상 융합할 대상을 발견하지 못할 때까지 수행하며, 이를 알고리즘으로
표현하면 아래의 [그림 12]와 같다. 이 알고리즘은 입력으로 위의
SL 추출 과정에서 획득한 SL들의 집합 S와 데이터 포인트들에 대한 이웃의 수인 w를 받으며, 그에 대한 결과로 관측장소 OP들의 집합 인 B를 반환하여 준다.
Input: S, w, minRad, minDist Output: B
procedure CHEBSTAYMERGING(S, w, minRad, minDist) initialize ←
while no possible merge pair do ← weightedCentroid(B, w) ← weightedVariance(B)
( , ) ← findNearestClusterPair(B, )
51 for location point ∈ do
= − −
if < minRad or dist , < minDist then ← ∪
← end if end for end while return B end procedure
[그림 12] Chebyshev’s inequality 기반 OP 구성 알고리즘
프로시저의 인자 중 minRad는 최소 확률 기준 확률로 대상 포 인트가 주어진 분포에 포함되기 위해 허용되는 확률의 최대값을 의 미하고, minDist는 Chebyshev's 부등식의 만족 여부와 관계없이 융합 할 최대 단위의 거리를 의미한다. minDist는 측정 정밀도의 한계로 인해 구분될 수 없는 거리의 차이를 합치거나, 수치적으로 동일한 좌표가 획득되어 분산을 획득할 수 없는 경우를 다루기 위하여 도 입하였다. B는 알고리즘의 결과가 되는 OP들의 집합을 보관하는 변 수로 처음에는 앞의 과정에서 획득한 SL들의 집합 S로 초기화한다. 집합 B에서 구성 그룹들의 평균 와 분산 를 구한 후 평균을 기준 으로 하였을 때 가장 가까운 클러스터 와 를 찾는다. 찾은 클러 스터 위치좌표 x들에 대해 에 대한 평균인 μ 와 Σ 와의
Chebyshev’s 부등식 값인 를 획득한다. 획득한 가 minRad보다
작거나, 두 클러스터 와 의 평균 거리가 minDist보다 작은 경우 에는 두 클러스터를 합치는 과정을 수행한다. 이러한 과정을 더 이 상 합칠 대상이 없을 때까지 반복하며 최종적으로 집합 B에 관측장 조 OP들이 구성되게 된다.
52