• Tidak ada hasil yang ditemukan

저작자표시-비영리-변경금지 2.0 대한민국 이용자는 ... - S-Space

N/A
N/A
Protected

Academic year: 2024

Membagikan "저작자표시-비영리-변경금지 2.0 대한민국 이용자는 ... - S-Space"

Copied!
31
0
0

Teks penuh

(1)

저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게

l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다:

l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다.

l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다.

저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약(Legal Code)을 이해하기 쉽게 요약한 것입니다.

Disclaimer

저작자표시. 귀하는 원저작자를 표시하여야 합니다.

비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다.

변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

(2)

이학석사 학위논문

추천시스템에서 부스팅방법과 다층인식자방법의 비교

The Comparison of Boosting with Multi-layer Perceptron(MLP) in Recommender Systems

2018년 2월

서울대학교 대학원 통계학과

모 성 희

(3)

국문초록

인터넷이나 모바일을 통해 상품을 판매할 때, 특정 상품을 구매할 잠재 고 객을 찾아 적절한 시기에 상품을 구매하도록 추천하는 일은 중요하다. 고객의 이전구매정보에기반하여추천시스템을구축하면,개인이특정상품을 재구매 할 것인지를 예측할 수 있고 고객이 상품을 재구매할 시기에 협업필터링, 내용 기반필터링 등의 기존의 방법을 적용하여 유사한 상품을 다양하게 추천할 수 있다. 본 논문에서는 부스팅방법과 다층인식자방법을 이용하여 식료품의 재구 매여부를예측해보았다.또한예측정확성을높이기위해서자료에서의미있는 데이터의 특징을 추출하는 일과 데이터의 구조에 따라 예측확률에 재구매 여 부를 분류하는 기준값으로 단순히 0.5가 아닌 최적의 분류기준값을 찾아 주는 일이 중요함을 확인할 수 있었다.

주요어 : 딥러닝,다층인식자방법,부스팅방법,추천시스템.

학 번 : 2016-20266

(4)

Contents

국문초록 i

1 서론 1

2 분석방법론 3

2.1 부스팅(Boosting) . . . 3

2.1.1 에이다부스팅(Adaptive Boosting) . . . 3

2.1.2 경사부스팅(Gradient Boosting) . . . 5

2.2 다층인식자(Multi-layer Perceptron) . . . 6

2.2.1 신경망 협업 필터링(Neural Collaborative Filtering ) . . . 8

2.2.2 경사하강법(Gradient Descent Algorithm ) . . . 8

2.2.3 역전사 알고리즘(Back-propagation) . . . 10

3 데이터분석 12 3.1 자료 설명 . . . 12

3.2 평가지표 . . . 13

3.3 실험 및 결과 . . . 14

3.3.1 50개 특징모형(Feature Model) . . . 14

3.3.2 기저모형(Baseline Model) . . . 17

4 결론 및 제언 21

(5)

참고문헌 23

(6)

List of Tables

3.1 범주형 자료에서 오분류표 . . . 13

3.2 특징추출의 중요성: 분류기준값 0.2 . . . 16

3.3 특징추출의 중요성: 최적의 분류기준값 . . . 16

3.4 부스팅모형과 다층인식자모형: 최적의 분류기준값 . . . 20

(7)

List of Figures

2.1 2개의 은닉층이 있는 다층인식자 . . . 6 2.2 시그모이드, 탄치, 렐루 그래프 . . . 8 2.3 신경망 협업 필터링 . . . 9 3.1 특징모형에서 부스팅모형과 다층인식자모형 재현율 비교 . . . . 15 3.2 특징모형에서 부스팅모형과 다층인식자모형 정밀도 비교 . . . . 15 3.3 특징모형에서 부스팅모형과 다층인식자모형 F1점수 비교 . . . . 15 3.4 기저모형에서 부스팅모형과 다층인식자모형 재현율 비교 . . . . 18 3.5 기저모형에서 부스팅모형과 다층인식자모형 정밀도 비교 . . . . 19 3.6 기저모형에서 부스팅모형과 다층인식자모형 F1점수 비교 . . . . 19

(8)

Chapter 1 서론

딥뉴럴네트워크(Deep Neural Network이하 DNN)는입력변수와출력변수 층(Layer) 사이에 여러 개의 은닉층이 갖는 인공 신경망을 의미한다. 단층인식 자가 XOR을 구현하지 못하여 위기를 맞았던 인공신경망 분야는 1980년대에 역전파(Back-propagation) 알고리즘을 이용한 학습 방법을 적용한 다층인식자 (Multilayer Perceptrons, Multilayer Feedforword Networks 이하 MLP)방법이 개발되면서부터 재조명 받기 시작하였다.새로운 학습 알고리즘의 탄생과컴퓨 터의 하드웨어적 발전을기반으로 다양한 응용딥러닝 알고리즘 개발이활발하 게 연구되고 있으며다양한 딥러닝 모델은비선형관계에 있는 데이터의복잡한 예측모델을 구축하는데있어좋은성능을보인다.기본적인모델인다층인식자 (MLP)에서 순환신경망(Recurrent Neural Networks 이하RNN)과 합성곱 신경 망네트워크(Convolutional Neural Network 이하CNN)에이르기까지데이터의 형태와 종류에 따라 다양한 딥러닝 이론과 알고리즘을 적용할 수 있다.

추천시스템은 새로운 정보가 업로드 되었을 때 고객의 이전 구매정보에 기 반하여 미래에 구매할 가능성이 높은 상품을 제시한다. 유사상품이나 새로운 상품또는과거에구매했던상품을 재추천하는방법등이 있으며예측된데이터 를 기반으로 고객에게 필요한 제품을 추천한다. 추천시스템에서는 협업필터링

(9)

(Collaborative Filtering), 내용기반필터링(Content-based Filtering) 방식을 많 이사용한다.협업필터링(Collaborative Filtering)은고객과다른고객의거리를 측정하여거리가 가까운고객들을 유사고객군으로분류하여유사고객군이선호 한상품후보군을추천하는방법이다.내용기반필터링(Content-based Filtering) 은 고객이 과거에이용한 상품의 카테고리에대한 정보와 별점정보를기반으로 해당 고객이 선호하는 카테고리의 다른 상품들을 추천해 주는 방법이다. 본 연 구에서는고객의과거데이터를이용하여해당고객이상품을 재구매할확률을 계산하고 이를 바탕으로 재구매 여부를 예측하는 방법에 대해 소개하고자 한 다. 부스팅방법과 딥러닝의 대표적인 방법인 다층인식자방법을 비교해 보았다.

재구매할 것으로 예상되는 상품들에 대하여 협업필터링이나 내용기반필터링 등을 추가적으로 적용한다면더 발전적인 추천시스템을 구축할수 있을것이라 기대한다. 제 2장에서 부스팅방법과 다층인식자방법을 소개하고 제 3장에서는 인스타카트(Insta-cart)데이터를이용하여실제자료에적용해본다.이때,평가 지표로는 정밀도(Precision)와 재현율(Recall),그리고이 두지표의조화평균인 F1점수를 사용하여 가장 높은 F1값을 갖게 하는 분류기준값을 적용하였다. 제

4장에서 결론을 맺는다.

(10)

Chapter 2 분석방법론

이절에서는고객의 재구매여부를예측하기위한두가지방법론을소개한다.

재구매여부를 예측하는문제는미래에고객이해당제품을 재구매를할지또는 하지않을지에대한 이진분류문제이다. 2.1에서는부스팅방법에대해소개하고

2.2에서는 딥러닝의 한 가지방법인다층인식자방법을 다룬다.

2.1 부스팅(Boosting)

부스팅은 정확하게 분류하는 개별모형에 가중치를 부여하면서 약한 분류 기들을 선형 결합시키는 방법으로 강한 분류기를 만드는 방법이다. 부스팅은 비모수적 방법을 사용하는 모형으로 자료가 복잡할 때 성능이 우수하다고 알 려져있다. 2.1.1에서 에이다부스팅(Adaptive Boosting)에 대해 소개하고 2.1.2 에서 경사부스팅(Gradient Boosting)을 다룬다.

2.1.1 에이다부스팅(Adaptive Boosting)

반응변수y가-1과1의값을가진다고 가정하고약한분류기들의선형결합의 부호가 양수 인지 음수인지에 따라 y의 값을 예측한다. 매번 다른 가중치 wi

(11)

부여된 데이터로부터각각의약한 분류기Gm(x)를 생성한다.이렇게생성한 약 한 분류기 M개에 가중치 αm가 부여되면서 결합하여 최종 분류기가 생성된다.

에이다부스팅의 구체적인 알고리즘은다음과 같다.

1.초기 가중치를 wi = 1/N로 정한다.

2.m = 1,2, ..., M에 대하여 다음을 시행한다.

2-1. 가중치 wi를 이용하여 약한 분류기 Gm(x)를 만든다.

2-2. Gm(x)의 오분류율 errm =

PN

i=1wiI(yi6=Gm(xi)) PN

i=1wi

을 계산한다.

2-3. αm =log1−errerr m

m 을 얻는다.

2-4. 가중치 wi를 wiexp(αmI(yi 6=Gm(xi))로 업데이트한다.

3.강한 분류기 G(x) =sgn(PM

m=1αmGm(x))를얻는다.

에이다부스팅은손실함수를L(y, f(x)) = exp(−yf(x))로사용한선대적가법 모형(Forward Stagewise Additive Modeling)과 같다.에이다부스트의기저함수 는 Gm ∈ {−1,1}이다.단, wi =exp(−yifm−1(xi))이다.

m, Gm) = argminβ,G

N

X

i=1

exp[(−y(fm−1(xi) +βG(xi))] (2.1)

=argminβ,G

N

X

i=1

w(m)i exp(−βyiG(xi)) (2.2) 위 식을 최소화하는 함수식은 다음과 같다.

exp(−β) X

yi=G(xi)

wi(m)+exp(β) X

yi6=G(xi)

w(m)i (2.3)

= (exp(β)−exp(−β))

N

X

i=1

wi(m)I(yi 6=G(xi)) +exp(−β)

N

X

i=1

w(m)i (2.4)

(12)

해는 다음과 같다.

Gm =argminG

N

X

i

wi(m)I(yi 6=G(xi)) (2.5) βm = 1

2log1−errm

errm (2.6)

errm = PN

i=1wi(m)I(yi 6=G(xi)) PN

i=1w(m)i (2.7)

위의해를이용하여다음과 같이 업데이트 한다.

fm(x) = fm−1(x) +βmGm(x) (2.8)

wi(m+1) =wi(m)exp(−βmyiGm(xi)) (2.9)

=wi(m)exp[2βmI(yi 6=Gm(xi))]exp(−βm) (2.10)

2.1.2 경사부스팅(Gradient Boosting)

경사부스팅의 구체적인 알고리즘은 다음과 같다. 훈련자료를 {(xi, yi)}ni=1, 손실함수를 L(y, F(x))라 하자.

1.모형의 초기값을 다음과 같이 세운다.

F0(x) =argminγ

n

X

i=1

L(yi, γ) (2.11)

2.m = 1,2, ..., M에 대하여 다음을 시행한다.

2-1. 잔차를 계산한다. 단, i= 1,2, ..., n이다.

rim=−[∂L(yi, F(xi))

∂F(xi) ]F(x)=Fm−1(x) (2.12)

(13)

2-2. 훈련자료를이용하여기본학습자인hm(xi)를 적합한다.

2-3. γm을 뉴튼랩슨 알고리즘을 이용하여계산한다.

rm =argminγ

n

X

i=1

L(yi, Fm−1(xi) +γhm(xi)) (2.13) 2-4. Fm(x) =Fm−1(x) +γmhm(x)로 업데이트 한다.

3.최종모형 FM(x)을구한다.

2.2 다층인식자(Multi-layer Perceptron)

인공신경망은 관측된 입력값 x를 이용하여 출력값 y를 모형화하는 기법으

로 궁극적인 목표는 관측된 (x, y)뿐만 아니라 관측되지 않은 (x, y)에 대해서도

y=f(x)인 함수를찾는것이다.즉,인공신경망은네트워크모형기반의회귀분 석이라고 할 수 있다.

Figure 2.1: 2개의 은닉층이 있는 다층인식자

(14)

평행관계나 노드 내에 루프가 없다. 서로 인접한 층끼리만 노드가 엣지로 연결 되는 가장 간단한 2개 이상의 은닉층을 가지는 인공신경망이라고 할 수 있다.

방향이 있지만 정보의 전달이 앞쪽 방향으로만 일어나고 앞의 층으로 나아간 정보에 대한 피드백이없기 때문에전진신경망(Feedforward Network)이라고도 명명한다.

L개의 은닉층이 있는 다층인식자를 가정하고 h(0) = x, h(L+1) = f(x)라고 하면 각각의 층에 대하여 노드는 다음과 같이 표현할 수 있다.

Zj(l)=

nl−1

X

i=1

w(l−1)ij h(l−1)i +b(l−1), l= 1,2..., L+ 1 (2.14) h(l)j =σ(z(l)j ), l= 1,2..., L :은닉층 (2.15)

h(L+1)j =g(zj(L+1)) : 결과층 (2.16)

이때 입력층과 은닉층의 활성함수(Activation Function) 식으로는 시그모이 드(Sigmoid),탄치(Tanh),렐루(Rectifier Linear Unit)함수등을주로사용하고 마지막 층에서 결과함수 식으로는 이산형인 경우 소프트맥스(Softmax), 연속 형인 경우 항등함수(Identify Function)를 통상적으로 사용하는데 각 함수들의 식과 형태는 다음과 같다.

Sigmoid(x) = exp(x)

1 +exp(x) (2.17)

T anh(x) = exp(x)−exp(−x)

exp(x) +exp(−x) (2.18)

ReLU(x) =max(0, x) (2.19)

결과함수식은 다음과 같다. 이때k = 1,2, ..., K 라 하자.

(15)

Figure 2.2:시그모이드, 탄치, 렐루 그래프

Sof tmax(z) = gk(Z) = exp(zk) PK

l=1exp(zl) (2.20)

Identity =gk(Z) =z (2.21)

2.2.1 신경망 협업 필터링(Neural Collaborative Filtering )

추천시스템 중 협업필터링에서는 과거 유저의 데이터로부터 유저들과 아 이템간의 관계를, 내용기반필터링은 아이템과 유저의 보조정보간의 관계를 추 론한다. 신경망 협업 필터링은 유저의 정보와 아이템에 대한 정보를 더미변수 와 잠재변수로 변환하여 입력변수로,유저-아이템 별점 행렬을종속변수로하여 다층인식자를 적용하는 방법이다. 반응변수의 별점 행렬은 유저와 아이템간에 상호작용(Interaction)이 있을 경우 1, 그렇지 않을 경우에는 0으로 구성되는 행렬이다.

ˆ

yui =f(UT ∗suseru , VT ∗sitemi |U, V, θ) (2.22) f(.) :다층인식자, θ :모수

2.2.2 경사하강법(Gradient Descent Algorithm )

(16)

Figure 2.3:신경망 협업 필터링

찾기는쉽지않다.따라서경사하강법(Gradient Descent Algorithm)알고리즘은 현재 미분계수의 반대 방향으로 조금씩 움직여서 국소적인 손실최소점을 찾기 위한 방법으로 1차원적인최적화 알고리즘이다. 최대경사법 알고리즘(Steepest

Descent Algorithm)으로도 알려져 있으며 초기 값에 민감하기 때문에 실제 목

표인 전체범위에 대한 최소점을 찾지 못할 수도 있는 단점이 있다. 먼저 초기 입력값으로 미분가능한 함수와 모수의 초기값을 정해주고 기울기벡터의 값의 반대 방향으로 조금씩움직이면서 해를 찾는데그 구체적인 알고리즘은다음과 같다.

1.초기 함수값을 f(θ), 모수의 초기값을 θ0 라 두자.

2.t = 1,2, ..., K 에 대하여 기울기 벡터식은 다음과 같다.

grad(θ(t−1)) = ∂

∂θf(θ)|θ=θ(t−1) (2.23)

3. 모수를 다음의 식에 의해서 업데이트한다. 이때 러닝정도를 의미하는 상 수인 의 값이 너무 작으면 계산량이 많고 최소값으로 수렴하지 않을 수 있다.

반면에너무크면최소값으로수렴하지않을수있기때문에적절한값을지정해

(17)

주어야한다.

=argminf(θ(t−1)+grad(θ(t−1))) (2.24)

θ(t)(t−1)−grad(θ(t−1)) (2.25)

4.추정값 θT를 출력한다.

2.2.3 역전사 알고리즘(Back-propagation)

역전사 알고리즘(Back-propagation)은 경사하강법(Gradient Decent Algo-

rithm)을 인공신경망 모형에 적용하는 계산방법이다. 제일 마지막 은닉층부터

모수의 값을 계산하여첫 번째 은닉층까지의역순차적으로모수의 값을계산한 다.k번째은닉층의모수를계산할때k+ 1, k+ 2, ...K번째은닉층의모수들만을 이용하여 계산 할 수 있다.

∂l

∂w(l)ij

= ∂l

∂z(l+1)j

∂zj(l+1)

∂w(l)ij

(2.26)

=h(l)i ∂l

∂zj(l+1) (2.27)

=h(l)i ∂l

∂h(l+1)j

∂h(l+1)j

∂z(l+1)j (2.28)

=h(l)i σ0(zj(l+1)) ∂l

∂h(l+1)j (2.29)

l번째층의모수의 경하값을계산 할때 위 층(k > l)의 값들에만의존한다는 것을 알 수 있다.

l=L일 때

∂l ∂

(18)

l < L일 때

∂l

∂h(l+1)j =

nl+2

X

k=1

∂l

∂zk(l+2)

∂zk(l+2)

∂h(l+1)j wjk (2.31)

=

nl+2

X

k=1

∂l

∂zk(l+2)w(jk) (2.32)

=

nl+2

X

k=1

σ0(zk(l+2)) ∂l

∂h(l+2)k wjk (2.33)

(19)

Chapter 3 데이터분석

3.1 자료 설명

슈퍼마켓앱을통해식료품을주문하면원하는날짜와 원하는시간에배달되 는편리함을누릴수있다.본연구에이용한자료는캐글대회(Kaggle Competi-

tion)에서공개한인스타카트자료이다.슈퍼마켓앱을통해206,009명의고객이

49,688개의 상품에 대하여 총 3,421,083건의 주문을 하였다. 49,688개의각각의

상품에 대하여, 21개의상위상품 카테고리와 134개의 하위상품카테고리중에

어디에해당하는지에대한정보가주어진다.또한유저정보,한유저를기준으로 몇 번째 주문인지, 장바구니에 담긴 순서, 주문요일, 주문시간, 동일한 상품의 과거주문으로부터시간이얼마나경과하였는지(30일이하),과거상품구매여부 등의 정보도 제공된다. 제공되는 자료를 가공하여 주요한 요소라고 생각되는 특징을 50개 추출하였으며, 이를 첫번째 데이터분석에 사용하였다. 또한 과거 유저별 상품의 구매횟수와 상품의 더미변수를 이용하여 입력변수를 만들었으 며, 이를 두번째 데이터분석에 사용하였다. 50000명의 유저를 랜덤하게 뽑아서 평가자료(Validation Set)으로 나머지 유저에 대해서는 훈련자료(Training Set)

(20)

속변수인 재구매 여부를 예측한다. 부스팅방법과 다층인식자방법으로 재구매 여부를 예측해 볼것이며 재구매를 할예정인 유저에 대해서는협업필터링이나 내용기반필터링을 이용하여적합한 상품을 추천할 수 있을 것이다.

3.2 평가지표

데이터모델링을 한 후,예측력을비교할 때 사용하는 지표에는여러가지가 있다.여러가지 지표 중에서 분석할 데이터의 종속변수가 재구매 여부를 예측 하는 이진분류 문제이므로 범주형 자료분석에서 많이 사용하는 지표인 재현율 (Recall)과정밀도(Precision)그리고이두지표의조화평균인F1점수(F1-score) 를 평가 지표로 사용한다. 재현율(Recall)은 유저가 실제로 재구매를 하는상품 들 중에서 재구매 여부를 얼마나 예측하였는지, 정밀도(Precision)는 재구매를 한다고 예측한 상품들 중 실제로 얼마나 재구매하였는지를 의미한다. F1점수 (F1-Score)는재현율과 정밀도의가중조화평균인Fβ점수(Fβ-Score)중에 β의 값 에 1을 대입하여 두요소에 동일한 가중치를 준 것이다.

Table 3.1:범주형 자료에서 오분류표 예측값 예측값

0 1

실제값 0 N0,0(TN) N0,1(FP) 실제값 1 N1,0(FN) N1,1(TP)

재현율(Recall) = N1,1

N1,0+N1,1 (3.1)

정밀도(Precision) = N1,1

N0,1+N1,1 (3.2)

Fβ점수(Fβ-score) = 1 +β2

β2/Recall+ 1/P recision (3.3)

(21)

3.3 실험 및 결과

3.3.1 50개 특징모형(Feature Model)

실험 방법

첫번째로 부스팅모형과 다층인식자모형에서 재현율, 정밀도, F1점수를 비 교해본다. 분류기준값에 따라 재현율, 정밀도, F1점수는 달라지게 되는데 그래 프를 통하여 두 모형이 얼마나예측을 잘하는지를 살펴볼 것이다. 이때 재현율, 정밀도, F1점수는 유저, 즉 고객마다 각각의 값을 계산한 후, 전체 고객에 대 한 평균값을 이용하여 재현율, 정밀도, F1점수를 계산하였다. 다층인식자는 각 은닉층마다 20개씩의 노드를 가진 2개의 은닉층을 가정하여 모형을 적합한 결 과이다.

특징추출의 중요성을 살펴보기위하여 45개의특징을 이용한모형과 50개의 특징을 이용한 모형에서분류기준값을0.2로고정시켰을 때와 유저별로최적의 분류기준값을 기준으로 부스팅모형을 사용했을 때의결과를 각각 비교해 본다.

실험결과1 : 부스팅모형과 다층인식자모형

특정 분류기준값에서는 다층인식자모형의 정밀도가 부스팅모형보다 좋은 구간이 있지만,대부분의분류기준값에서부스팅모형이 재현율,정밀도,F1점수 가모두높게나타난다.특히분류기준값이0.2인근에서부스팅모형의F1점수가 다층인식자모형보다현저하게 높으며분류기준값[0.2,0.5]구간에서 두모형의 F1점수 차이가 두드러진다. F1점수가 높다고 해서 부스팅모형의 예측력이 다 층인식자모형보다 성능이 항상 우수하다고 단언할 수 없지만 F1값은 예측력의 우수성을 의미하는 하나의 지표로써 사용할 수 있다.

(22)

Figure 3.1:특징모형에서 부스팅모형과 다층인식자모형 재현율 비교

Figure 3.2:특징모형에서 부스팅모형과 다층인식자모형 정밀도 비교

Figure 3.3:특징모형에서부스팅모형과다층인식자모형 F1점수 비교

(23)

실험결과2 : 특징추출의 중요성

45개의 특징만을 사용한 모델보다 5개의 특징을 더 추가한 50개의 특징

을 사용한 모델의 재현율, 정밀도, F1점수의 결과가 모두 향상됨을 알 수 있다.

물론,특징추출의수를늘린다고해서무조건적으로결과가좋아지는것은아니 다.오히려연관성이 없는특징을추가하게되면예측결과가나빠지는오버피팅

(Overfitting)현상이 나타나기도 한다. 따라서 예측결과에 긍정적인 영향을 줄

수있는연련성이높은특징들을추출하여 아래의결과와같이더좋은예측력을 가지는 모델을 만드는 것을 목표로 한다.

Table 3.2: 특징추출의 중요성:분류기준값0.2 부스팅 45개 특징 50개 특징

Train Set Valid Set Train Set Valid Set

recall 0.50156 0.48827 0.50161 0.48865

precision 0.37149 0.36421 0.37127 0.36457 F1-score 0.39508 0.38337 0.39539 0.38386

Table 3.3:특징추출의 중요성: 최적의 분류기준값

부스팅 45개 특징 50개 특징

Train Set Valid Set Train Set Valid Set

Recall 0.53495 0.51886 0.53535 0.51942

Precision 0.37371 0.36664 0.37382 0.36639 F1-score 0.40950 0.39846 0.41000 0.39852

(24)

3.3.2 기저모형(Baseline Model)

실험 방법

49688개 상품 중에서 가장 많이 주문한 상위 1000개의 상품에 대하여만 기

저모형을 만들었다. 즉, 2000개의 열 중에서 처음 1000개의 열은 유저가 상위

1000개의 상품에 대하여 과거에 각 상품을 몇번씩 구매하였는지를 나타내고,

다음 1000개의열은 재구매여부를예측하고 싶은상품이 1000개의상품중에서

무엇에 해당하는지 0과 1의 더미변수를 이용하여 해당 상품의 위치는 1, 다른

999개의 상품은 0으로 표기하는 원핫벡터(One-hot-vector)를 구성하여 입력변

수로 사용한다. 유저의 기초적인 과거 구매정보를 입력변수로 재구매 여부를 종속변수로 하는 기저모형을 이용하여 부스팅모형과 다층인식자모형에서재현 율,정밀도,F1점수를비교해본다.분류기준값에따라재현율,정밀도,F1점수는 달라지게 되는데 그래프를통하여 두 모형이얼마나 예측을 잘하는지를살펴볼 것이다. 이때 재현율, 정밀도, F1점수는 유저, 즉 고객마다 각각의 값을 계산한 후,전체 고객에대한평균값을 이용하여 재현율,정밀도,F1점수를계산하였다.

다층인식자는각은닉층마다30개씩의노드를가진2개의 은닉층의경우와첫번 째은닉층에서200개,두번째은닉층에서100개의노드를가진두가지케이스에 대하여 모형을 적합하였다.

신경망협업필터링은 유저와상품의상호작용여부를행렬형태의종속변수로, 유저에 대한 원핫벡터와 상품에 대한 원핫벡터를 입력변수로 사용하여 다층인 식자모형에 적합시킨다. 하지만 본 연구에서는 유저에 대한 원핫벡터가 아닌, 유저가 과거에 구매한 상품 횟수를 열벡터(길이1000)에 유저마다 동일한 값을 갖도록 하여 유저의 정보를간접적으로 반영하였다. 유저의 간접정보와상품의 원핫벡터로 이루어진 열벡터(길이2000)형태의 입력변수에대하여유저와상품 의 상호작용여부를 직접적으로 나타내는 종속변수가 아닌 상품의 재구매 여부 의미하는 변수를 종속변수로사용하여 다층인식자모형에 적합시킨다는점에서 신경망 협업필터링과는 유사점과 동시에 구조적 차이점을 가진다.

(25)

실험결과1 : 부스팅모형과 다층인식자모형

상위 1000개의 상품에 대한 기저모형을 부스팅모형에 적합시켰을 때가 2개

의 은닉층에 각각 30개의 노드를 갖는 다층인식자모형보다는 전반적으로 높은 재현율과 정밀도,F1점수를나타낸다.하지만 각은닉층에서 200개, 100개의 노 드를갖는 다층인식자모형은부스팅모형보다분류기준값이변화할때결과값이 로버스트(Robust)함을 알 수 있다. 즉, 분류기준값에 민감하지 않고 안정적인 결과값을 나타낸다.

Figure 3.4:기저모형에서 부스팅모형과 다층인식자모형 재현율 비교

(26)

Figure 3.5:기저모형에서 부스팅모형과 다층인식자모형 정밀도 비교

Figure 3.6:기저모형에서부스팅모형과다층인식자모형 F1점수 비교

(27)

실험결과2 : 최적의 분류기준값 적용시

최적의 분류기준값을 적용했을 때, 실험결과1과 유사하게 상위 1000개의 상품에 대한 기저모형을 부스팅모형에 적합시켰을 때가 각 층에 30개의 노드 를 가진 2개 은닉층의 다층인식자모형보다 더 높은 재현율과정밀도를 보인다.

따라서 F1점수도 더 높은값을나타낸다.

Table 3.4: 부스팅모형과 다층인식자모형: 최적의 분류기준값

부스팅 다층인식자

Train Set Valid Set Train Set Valid Set

Recall 0.96476 0.96398 0.91253 0.90881

Precision 0.69369 0.69309 0.68246 0.67870 F1-score 0.78063 0.78004 0.75477 0.75056

(28)

Chapter 4 결론 및 제언

실험결과에서는 재현율, 정밀도, F1점수 값의 결과가 부스팅모형이 다층인 식자모형보다 전반적으로 높게 나타났다. 이는 최적의 분류기준값을 적용했을 때도 마찬가지였으나 이 결과만으로 부스팅모형이 다층인식자모형보다 더 예 측력이 좋은 모형이라고 단언 할 수 없다. 다층인식자모형에서 은닉층의 수와

노드의 수를최적화 시키지 않고2개의 은닉층에각각 20개 또는30개, 200개와

100개라는 임의의 노드 수를 이용한 모형 적합이었기 때문에 은닉층과노드의 수에 따라 실험결과가 부스팅모형보다나아질가능성이 충분히 존재한다.또한 재현율, 정밀도, F1점수만으로 모형을 평가하기보다는 정확도, 오분류율, AUC 등 다른 여러가지 평가지표들도 함께 참고하는 것이 좋다.

딥러닝 이론을적용하기전에 데이터의 특징을살펴보고 소비자가 왜그러한 소비를 할수밖에 없었는지에 대한물음에답을찾는것은매우중요하다.예를 들어 콜라를 자주 구매하는 사람이 콜라를 구매하지 않았을 때는 이번 구매에 서는 지난 번에 구매한 콜라가 아직 남아서 콜라를 구매하지 않았을 가능성도 있는 반면, 콜라의 대체제로 제로콜라를구매했을가능성도 있다. 이와 같이 유 사상품의 프로모션으로 인한 가격변동, 유사신상품의 개발 등의 데이터여부도 소비자의 구매패턴에 영향을 미친다. 따라서 관련 데이터에 대한 고찰이 필수

(29)

적으로 병행되어야한다. 그러한 물음에 대한 답을 바탕으로 어떤 변수를 입력 변수로 넣을 것인지변수를 선택하고 기계를러닝을 시켜야 좋은추천시스템을 만들 수 있을 것이다. 딥러닝을 이용한 추천시스템 모델의 한계점은 예측력은 좋지만해석력이좋지않아왜이런상품을추천하는가에대한수식적,이론적인 근거 설명이 어렵다는 것이다.따라서 설명이 필수적으로 가능해야하는모형을 제시해야하는 분야에서는 쓰이기가 어렵다. 이론적으로 명확하게 설명이 가능 하면서 예측력이 높은 모형을 개발하기 위해서 많은 연구가 진행되고 있지만 아직까지 딥러닝을 이용한 모형설명의 관점에서의 한계점을 지닌다.

(30)

참고문헌

[1] Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, & Tat- Seng Chua (2017), Neural Collaborative Filtering, Proceedings of the 26th International Conference on World Wide Web, April 03-07, 2017, Perth, Australia

[2]박창이,김용대,김진석,송종우., & 최호식(2015), R을 이용한데이터마이 닝, 교우사

[3] Ye, N., Chai, K., Lee, W., & Chieu, H. Optimizing F-measures: a tale of two approaches. In ICML, 2012.

[4] Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statis- tical learning (Vol. 1). Springer, Berlin: Springer series in statistics.

[5] James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 6). New York: springer.

[6] Ian Goodfellow, Yoshua Bengio, & Aaron Coruville, Deep Learning, MIT Press (MA)

(31)

Abstract

Seonghui Mo The Department of Statistics The Graduate School Seoul National University For e-commerce companies that sell products online, it is important to identify potential customers and suggest the right item for them to purchase.

By building a statistical model based on customer’s order history, companies can predict what items will likely be ordered again, and with adoption of Col- laborative Filtering and Content-based Filtering, recommender system should be able to smartly suggest items customer may be interested in buying. This thesis focuses on predicting cutomer decision on grocery reorder or subscrip- tion using Boosting and Multilayer perceptron. The thesis will also confirm that extracting features that represent meaningful characteristics from a data set and finding optimal threshold per data structure are crucial in improving the prediction accuracy.

Keywords : Deep Learning, Multilayer Perceptron, Boosting, Recommender System.

Student Number : 2016-20266

Gambar

Figure 2.1: 2개의 은닉층이 있는 다층인식자
Figure 2.2: 시그모이드, 탄치, 렐루 그래프
Figure 2.3: 신경망 협업 필터링
Figure 3.1: 특징모형에서 부스팅모형과 다층인식자모형 재현율 비교
+7

Referensi

Dokumen terkait

를 조성하였고, 이를 통해 주거에서의 계층 간 불평등을 해소하고자 하 였다.4 그러나 당시 지어진 사회적 혼합단지들에서는 계층 간 물리적 거 리가 좁혀졌으나, 계층 간 교류 및 차별을 고려하지 못한 채 지어져, 혼 합단지 내에서 임대세대 입주민에 대한 공간적·심리적 배제가 발생하였 고 이로 인한 임대주택 입주민에 대한 사회적

정규화 항이 있는 목적함수 25을 최적화하는 방법으로는 정규화 항이 없는 목적함수 1을 최적화하는방법인뉴턴방법과MasGrad에 각각대응하는근위뉴턴 방법proximal- newton type method, ProxNewton [3]과 적률 조정 근위 경사하강법moment adjusted proximal gradient descent

연구문제 본 연구는 동영상 기반 학습에서 메타인지 지원이 학습자의 인지 부 하와 학습결과에 어떤 영향을 미치는지 확인하는 것을 목적으로 한다.. 인지 부하에 미치는 영향을 확인하기 위해 생리심리반응을 통한 객관적 인 자료를 수집하여 활용하고자

Although the precise molecular mechanism underlying AHNAK involvement in -adrenergic signaling remains to be determined, the downregulation of AHNAK levels can be a new approach to

환경복지 영 역은 환경불평등, 환경인프라, 환경복지수준, 지속가능발전의 4영역이고 공통된 비전은 분석대상 문헌을 바탕으로 ‘환경복지 최저기준 보장 및 환 경불평등 완화를 통한 개인의 삶의 질 강화, 지역공동체 발전, 국가경쟁력 강화’로 설정해보았다.. 환경불평등 영역은 환경불평등 완화를, 환경인프라 는 쾌적한 환경을,

Under-saturated condition In the previous chapter, the total transport resistance and the contribution of molecular diffusion and Knudsen diffusion of a whole cell were empirically

CHAPTER Ⅰ Establishment of a novel Parkinson’s disease model in common marmoset for cell therapy evaluation ABSTRACT ··· 52 INTRODUCTION ··· 55 MATERIALS AND METHODS ··· 61 Animals

This interaction model shows how the combination of a utility scheme, underlying network structures, strategic interaction of the individuals and network visibility can result into the