• Tidak ada hasil yang ditemukan

관측 장소 추출

Dalam dokumen 비영리 - S-Space - 서울대학교 (Halaman 57-62)

4. 중요 장소 추출 알고리즘

4.2. 제안 기법

4.2.3. 관측 장소 추출

47

되는 유사군 들을 융합하는 과정을 수행할 필요성이 있으며 이 과 정을 추후 절차에서 수행한다.

[그림 10] 측위 정보에 의한 위치 파편화 발생 예시

추후 절차를 통해 파편화된 SP을 합치는 과정이 존재하므로 정 지된 장소를 오류 없이 정확히 인지하여 이후의 과정에 전달하는 것이 이 단계에서 중요하게 고려해야 할 사항 중 하나이다. 그렇기 때문에 알고리즘의 파라미터를 파편화가 다수 발생하더라도 빠짐없 이 SP를 인지할 수 있도록 보수적으로 설정하는 것이 적절하다고 할 수 있다. 본 연구에서는 실험을 통해 SP 추출 알고리즘의 파라미 터를 ePs 0.001, minPts 5, minTime 2분, maxSpeed 8km/h으 로 설정하였다.

48

인지할 수 있는 장소를 얻을 수 있다. SP들은 밀도기반 클러스터링

기반으로 변형된 알고리즘을 사용하였다는 점과 정확한 SP들을 획 득하기 위해 알고리즘의 파라미터를 보수적으로 설정하였기 때문에 사용자의 실제적 머무름보다 더 작은 단위로 나누어져 있다고 할 수 있다. 이러한 SP들의 집합 S로부터 관측 장소 OP를 획득하기 위 해서는 이들을 효과적으로 합쳐나갈 수 있는 방법론이 필요하다.

따라서 이 단계에서는 위의 과정을 통해 획득한 SP에 대하여 유사한 특성을 지니는 SP들을 취합하는 과정을 통해 OP를 구성하는 과정을 진행한다. 본 연구에서는 SP를 합치기 위한 가정으로 만약

위치 좌표를 획득하는 물리적 원천 (source)이 같은 경우에는 중앙

집중형 분포 형태로 나타날 것이라는 것을 가정하였으며, OP는 이 분포로부터 추론된 집합으로 정의하였다.

OP는 위치 데이터로부터 얻을 수 있는 장소 정보로 앞서 언급 한 바와 같이 센서의 특성이나 환경적 영향을 받는다. 이러한 측정 장비들은 일반적으로 측정 오차들이 존재하며, 이러한 오차들은 데 이터가 충분하게 확보된 경우에는 중앙 집중형 분포로 나타나게 되 고 이러한 사실로부터 착안하여 OP를 획득하는 과정에 Chebyshev’s

부등식(inequality)를 활용하도록 하였다. Chebyshev’s 부등식 기반 방

법론은 중앙 집중형 분포들에 대해 성립할 수 있는 부등식이라는 장점과, 일반적인 클러스터링 방법들에 비해 파라미터에 민감하지

않다는 장점이 있다. Chebyshev's 부등식은 중앙 집중형의 임의의 분

포에 대해서 성립하는 부등식으로 다음의 수식과 같다. 이때 = [ ] 이고 = [( − )( − ) 이다.

Pr ( − ) ( − ) > ≤

49

이 부등식이 의미하는 것은 구간 (μ − kσ, μ + kσ)밖에 존재하는

값들이 k에 따른 특정 비율을 초과하지 않는다는 의미이다. k가 √2

이면 구간 밖에 존재하는 값들이 50%를 초과하지 않는다는 의미이

다. ST들간의 융합여부를 판단하기 위해 각 SL 또는 OP 내에 존재하

는 위치 좌표들에 대하여 비교대상이 되는 두 SL 또는 OP의 분포와

Chebyshev's 부등식을 만족하면 해당 좌표들이 포함된 클러스터를

융합하는 방식으로 진행하였으며, 이 조건을 수식으로 정리하면 아 래의 식과 같다. 이 때 은 평가의 대상이 되는 위치 좌표이고,

( , )와 ( , )는 비교 대상이 되는 SL 또는 OP의 평균과 분산이

다.

( − ) ( − ) < && − − <

추가적으로 앞의 ST 탐색 과정에서 획득한 좌표에 대한 이웃의 수 w 위치 좌표에 대한 가중치로 사용하여 가중 평균과 가중 분산을 사용하여 위의 과정을 수행하였다. 이러한 변경을 통해 연쇄

현상 (chaining phenomenon)이 발생하는 것을 방지하도록 시도하였

다. 연쇄 현상은 하나의 데이터 포인트로 인해 의도치 않게 유사하 지 않은 클러스터들이 지속적으로 융합되는 현상을 의미하며 응집

(agglomerative) 클러스터링을 수행할 때 연쇄적으로 합쳐지는 현상

을 의미하고, 클러스터링 결과의 품질에 큰 영향을 미칠 수 있는 문

제이다. 아래의 [그림 11]은 이러한 연쇄 현상이 발생할 수 있는 예

시를 나타낸 것이다. 점선은 각각 군집의 평균과 분산을 기준으로 생성한 경계이고, 실선은 이웃의 수 w 가중치로 이용한 가중 균과 분산을 사용하였을 시의 경계선을 보여준다. 적색 별표는 연쇄 현상을 발생시킬 수 있는 데이터로 두 클러스터가 합쳐지게 하는

50

요인을 제공해 주는 좌표라고 할 수 있으며, 가중 평균과 분산을 사 용하면 이러한 현상의 발생이 완화될 수 있음을 확인할 수 있다. 이 러한 가중치의 적용은 SL을 획득하는 과정에서 배제된 관측 좌표들 에 대한 정보를 적용함으로써 좀 더 안정적이고 풍부한 정보를 기 반으로 분포를 구성할 수 있다는 점에 기인한 것으로 판단된다.

[그림 11] 가중치 사용에 따른 OP 융합 과정의 차이 예시

이러한 일련의 과정들을 주어진 데이터 포인트들로부터 더 이상 융합할 대상을 발견하지 못할 때까지 수행하며, 이를 알고리즘으로

표현하면 아래의 [그림 12]와 같다. 이 알고리즘은 입력으로 위의

SL 추출 과정에서 획득한 SL들의 집합 S 데이터 포인트들에 대한 이웃의 수인 w 받으며, 그에 대한 결과로 관측장소 OP들의 집합 인 B 반환하여 준다.

Input: S, w, minRad, minDist Output: B

procedure CHEBSTAYMERGING(S, w, minRad, minDist) initialize ←

while no possible merge pair do ← weightedCentroid(B, w) ← weightedVariance(B)

( , ) ← findNearestClusterPair(B, )

51 for location point ∈ do

= −

if < minRad or dist , < minDist then ← ∪

end if end for end while return B end procedure

[그림 12] Chebyshev’s inequality 기반 OP 구성 알고리즘

프로시저의 인자 중 minRad 최소 확률 기준 확률로 대상 인트가 주어진 분포에 포함되기 위해 허용되는 확률의 최대값을 의 미하고, minDist Chebyshev's 부등식의 만족 여부와 관계없이 융합 할 최대 단위의 거리를 의미한다. minDist는 측정 정밀도의 한계로 인해 구분될 수 없는 거리의 차이를 합치거나, 수치적으로 동일한 좌표가 획득되어 분산을 획득할 수 없는 경우를 다루기 위하여 도 입하였다. B 알고리즘의 결과가 되는 OP들의 집합을 보관하는 변 수로 처음에는 앞의 과정에서 획득한 SL들의 집합 S 초기화한다. 집합 B에서 구성 그룹들의 평균 와 분산 를 구한 후 평균을 기준 으로 하였을 때 가장 가까운 클러스터 와 를 찾는다. 찾은 클러 스터 위치좌표 x들에 대해 에 대한 평균인 μ 와 Σ 와의

Chebyshev’s 부등식 값인 를 획득한다. 획득한 가 minRad보다

작거나, 두 클러스터 와 의 평균 거리가 minDist보다 작은 경우 에는 두 클러스터를 합치는 과정을 수행한다. 이러한 과정을 더 이 상 합칠 대상이 없을 때까지 반복하며 최종적으로 집합 B 관측장 조 OP들이 구성되게 된다.

52

Dalam dokumen 비영리 - S-Space - 서울대학교 (Halaman 57-62)