• Tidak ada hasil yang ditemukan

저작자표시-비영리-변경금지 2.0 대한민국 이용자는 ... - S-Space

N/A
N/A
Protected

Academic year: 2024

Membagikan "저작자표시-비영리-변경금지 2.0 대한민국 이용자는 ... - S-Space"

Copied!
46
0
0

Teks penuh

(1)

저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게

l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다:

l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다.

l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다.

저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약(Legal Code)을 이해하기 쉽게 요약한 것입니다.

Disclaimer

저작자표시. 귀하는 원저작자를 표시하여야 합니다.

비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다.

변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

(2)

이학석사 학위논문

이차 적률 행렬이 갱신되는 변수에 의존하는 경우의 적률 조정 근위

경사하강법 수렴 분석

2022 년 02 월

서울대학교 대학원 통계학과

안 우 진

(3)

이차 적률 행렬이 갱신되는 변수에 의존하는 경우의 적률 조정 근위

경사하강법 수렴 분석

지도교수 원 중 호

이 논문을 이학석사 학위논문으로 제출함 2021 년 10 월

서울대학교 대학원 통계학과

안 우 진

안우진의 석사 학위논문을 인준함 2022 년 01 월

위 원 장 장 원 철 (인)

부위원장 원 중 호 (인)

위 원 이 권 상 (인)

(4)

국문초록

본 논문에서는 매끄럽지 않은 정규화 항이 있는 목적함수를 최 적화하는 MadProx 방법을 소개하고 그 수렴성을 분석한다.

MadProx에 앞서, MadProx의 근간이 되는 방법인 MasGrad 방법 을 소개하고 MasGrad의 통계적 추론 성질을 증명할 것이다.

MadProx 방법은 이차 적률 행렬이 갱신되는 변수에 의존하지 않 는 경우와 같은 제한된 조건에서 수렴한다는 한계가 있었다. 본 논문에서는 새로운 검색 방향을 정의하고 고정된 단계-크기가 아 닌 직선 탐색 과정을 통해 매 반복마다 단계-크기를 정하는 알고 리즘을 소개할 것이다. 그렇게 구한 검색 방향과 단계-크기로 이 차 적률 행렬이 갱신되는 변수에 의존하는 경우에도 MadProx가 수렴함을 보일 것이다. 더불어, 데이터 시뮬레이션 환경에서 L1-노 름 정규화 항이 있는 로지스틱 회귀를 대표 모형으로 하여 MadProx의 수렴 속도를 다른 반복법들과 비교할 것이다.

주요어: 최적화, 반복법, MasGrad, MadProx, 근위 함수, 직선 탐색 과정 학 번: 2020-21707

(5)

Contents

1 서론 2

1.1 반복법 . . . 2 1.2 기여 . . . 2

2 MasGrad의 통계적추론 4

2.1 Langevin Diffusion . . . 5 2.2 비점근적상계 . . . 5

3 MasGrad의 수렴 분석 9

3.1 Non-convex case . . . 9 3.2 Strongly convex case . . . 11 3.3 일반화선형모형에서의가속 . . . 15

4 매끄럽지 않은 정규화 문제 19

4.1 ProxNewton . . . 20 4.2 MadProx . . . 20

5 MadProx의 성질 21

5.1 검색방향 . . . 21 5.2 직선탐색과정 . . . 24

6 MadProx의 수렴성 28

6.1 V(xt) =V일때MadProx의수렴성 . . . 28 6.2 V(xt)가xt에의존할때MadProx의전역수렴성 . . . 31 6.3 V(xt)가xt에의존할때지역수렴성. . . 32

7 실험 34

7.1 실험환경 . . . 34 7.2 실험결과 . . . 35

8 결론 39

9 부록 40

(6)

1 서론

1.1 반복법

많은통계적방법은모수 θ에 대한 목적함수 L(θ)를 최적화하는 문제들로 구성된다. 이 문제를최적화식으로나타내면다음과 같다:

minimize

θ∈Rn

L(θ). (1)

예를 들어, 로지스틱 회귀 모형의 경우 자료 (xi, yi), xi ∈ Rp, yi ∈ R, (i = 1,· · · , N) 로부터 구한 목적함수 L(θ) =

N

Q

i=1

f(yi|xi, θ)를 최대화하는 모수 θ를 구하는 문제로 표현할 수있다.목적함수(1)을최적화하는대표적인방법으로선형계획법이나최소제곱법과 같이 직접적으로목적함수의 최적값을 계산하는 방법과반복적으로최적점의근삿값을갱신하는 방법인반복법이 있다.본논문에서는아래와같은반복법을중점적으로다룰것이다:

θt+1t−ηth(θt), (2) 여기서 h는 목적함수의 일차혹은 이차 정보에 의존하는 함수이고 ηt는 얼마나 갱신할지에 대한단계-크기(step-size)이다.

1.2 기여

반복법에는 목적함수의 일차 정보만을 이용하는 방법과 이차 정보를 추가로 이용하는 방법이 있다. 일차 정보만을 이용하는 방법에는 경사하강법(gradient descent method,이하 GD)과확률적경사하강법(stochastic gradient descent method,이하SGD)등이 있고이차 정보를이용하는방법에는 뉴턴방법(Newton’s method)이널리알려져있다.본논문에서는 이차정보를이용하는방법중헤시안행렬을사용하는 뉴턴방법이아닌이차적률행렬을사 용하는적률조정확률적경사하강법(moment adjusted stochastic gradient descent method,

이하MasGrad)이라는방법에대해서 소개하고해당방법의특징들을알아볼것이다.

더나아가,제약조건이 있는문제를이차적률행렬을사용하여최적화하는방법인적률 조정근위경사하강법(moment adjusted proximal gradient descent method,이하MadProx) 을소개하고 그수렴성을 분석할것이다. MadProx를소개한[4]에는이차적률행렬이갱신 되는변수에의존하지않는제한된조건에서수렴분석을진행한반면,본논문에는이차적률 행렬이갱신되는변수에의존하는경우에서수렴분석을할것이다.그리고매반복마다직선 탐색 과정을 통해 단계-크기 ηt를 구하면 MadProx가 1차 수렴 속도보다 더 빠른 2차 수렴 속도를가지는것을실험을통해보일것이다.즉,여러데이터실험환경에서ℓ1-노름정규화 항이 있는로지스틱회귀모형을대표모형으로하여,근위뉴턴방법(proximal-newton type method,이하ProxNewton),좌표하강법(coordinate descent method,이하CD)과MadProx 의수렴성을비교할것이다.

본논문은주로참고문헌[3]과[4]를참조하였다.그중참고문헌[4]의정리들을 이해하기

(7)

쉽게다시작성하였고일부증명과정에서는표기에오류가있어서수정하여다시증명하였다.

또한,참고문헌[3]에서의증명을MadProx버전으로수정하였다.

(8)

2 MasGrad의 통계적 추론

목적함수가 L(θ) = Ez∼P[ℓ(θ,z)]일 때, (2)에서 h(θt) = Ez∼P [∇θℓ(θt,z)]인 경우를 경 사하강법(gradient descent method)이라고 한다. 즉, 경사하강법은 매 반복마다 현재 값에 목적함수의기울기 값을빼어서다음 단계의값으로 갱신하는 반복법이다. 경사하강법은 목 적함수의극값을찾는제일간단하고기본적인 일차반복법이다.

Ez∼P [∇θℓ(θt,z)]를직접 계산하는 대신데이터의모분포 z∼P에서독립적으로 추출한 n개의 표본을 이용해 Eˆn[∇θℓ(θt,z)]를 계산하면 경사하강법과 마찬가지로 그 수렴값이 극 값에수렴하고반복마다기울기의계산량이줄어든다는 점에서유용하다.이방법을 확률적 경사하강법(stochastic gradient descent method)이라고한다:

θt+1t−ηtn[∇θℓ(θt,z)], 여기서 Eˆn[∇θℓ(θt,z)] = n1

n

P

i=1

θℓ(θt,zi)은 독립적으로 추출된 n개의 표본에 대한 경험적 기댓값이다.

한편, (2)에서 h(θt) = V(θt)−1n[∇θℓ(θt,z)]인 경우를 적률 조정 확률적 경사하강법 (moment adjusted stochastic gradient descent method, MasGrad [4])이라고한다:

θt+1t−ηtV(θt)−1n[∇θℓ(θt,z)], (3) 여기서V(θt) ={Covz∼P[∇θℓ(θt,z)]}1/2는점수함수(score function) ∇θℓ(θt,z)에대한공 분산 행렬의제곱근이다. 위방법은 SGD에서 Eˆn을표준화한 방법으로서각 좌표의 조건부 노이즈가 독립적이고 동질적(homogeneous)이게 된다. 이러한 표준화 기법은 더 노이즈가 많은성분이더많은조정을받는다는점에서다른이차반복법인뉴턴방법과유사하다.

2장에서는MasGrad로부터유도된확률적갱신ξt(아래의diff MasGrad)의분포가적절 한조건하에서MasGrad 갱신 θt의분포와가까운거리에 있음을보일 것이다.다시말해서, 데이터의모분포z∼P와관계없이두갱신의분포사이의 거리는비점근적상계를가진다.

MasGrad : θt+1t−ηV(θt)−1n[∇θℓ(θt,z)] (4) diff MasGrad : ξt+1t−ηV(ξt)−1b(ξt) +p

−1ηgt (5)

여기서b(θ) =Ez∼P [∇θℓ(θ,z)], V(θ) ={Cov [∇θℓ(θ,z)]}1/2, β= 2nη 그리고gt∼ N(0, Ip) 이다.

이 장의 내용은[4]의결과를알기쉽게정리한것이다.

(9)

2.1 Langevin Diffusion

MasGrad로부터유도된확률적갱신(5)를discretized Langevin diffusion혹은diff MasGrad 라고한다. MasGrad에서중심극한정리를통해다음과 같은확률변수가있는근사식을 유도 할수있다:

θt+1t−ηV(θt)−1n[∇θℓ(θt,z)]

t−ηV(θt)−1E[∇θℓ(θt,z)] +ηV(θt)−1h

E[∇θℓ(θt,z)]−Eˆn[∇θℓ(θt,z)]i

≈θt−ηV(θt)−1b(θt) +p

−1ηgt,

여기서b(θ) =Ez∼P[∇θℓ(θ,z)], V(θ) ={Cov [∇θℓ(θ,z)]}1/2,β = 2nη 그리고gt∼ N(0, Ip) 이다.

Proposition 1.

ηV(θt)−1

E[∇θℓ(θt,z)]−Eˆn[∇θℓ(θt,z)]

≈p

−1ηgt

Proof. 아래와같이Xit)를정의하면E[Xit)] = 0, Cov [Xit)] =Ip이성립한다:

i= 1,2,3,· · · , n에대해Xit) =V(θt)−1(∇θℓ(θt, zi)−E[∇θℓ(θt,z)]).

여기서Xit)는분포P에서추출된zi와 같은 σ-field에서정의된다.중심극한정리에의 해,

√nV(θt)−1

n[∇θℓ(θt,z)]−E[∇θℓ(θt,z)]

=√ n 1

n

n

X

i=1

Xit)−E

"

1 n

n

X

i=1

Xit)

#!

→ NL (0, Ip).

따라서,ηV(θt)−1(E[∇θℓ(θt,z)]−Eˆn[∇θℓ(θt,z)]) ≈p

−1ηgt, 여기서 β = 2nη , gt ∼ N(0, Ip)이다.

2.2 비점근적 상계

MasGrad 갱신 (4)으로부터 얻어진 µ(θt, t ∈ [T])를 MasGrad 확률 과정에 대한 결합 분포, diff MasGrad갱신 (5)로부터얻어진 µ(ξt, t∈[T])를diff MasGrad 확률과정에대한

(10)

결합분포라고하자.적절한가정하에µ(θt, t∈[T])와µ(ξt, t∈[T])의총변동거리가비점근 적상계를가진다. 다시 말해서, 충분히큰n에 대하여µ(ξt, t∈ [T])는µ(ξt, t∈ [T])에분포 수렴한다.즉,

DTV(µ(θt, t∈[T]), µ(ξt, t∈[T]))≤Ot,n

rt n

!

⇒ µ(θt, t∈[T])→L µ(ξt, t∈[T]) as n→ ∞.

Lemma 1. (Pinkser’s inequality) ([5]의 Lemma 2.5)

임의의확률변수X, Y에대해

1

2DTV(µ(X), µ(Y))2≤DKL(µ(X)∥µ(Y)). (6)

Theorem 1. (Non-asymptotic bound for inference) ([4]의Theorem 3.1)

i = 1,2,3,· · · , n에 대해 Xit) = V(θt)−1[∇θℓ(θt, zi)−E[∇θℓ(θt,z)]]이라고 하자.

임의의 θt에 대해 Xit)가 부록의 (1)과 (2)를 만족한다고 가정하자. MasGrad 갱신 θt와 diff MasGrad갱신ξt의 초깃값이같을 때, 즉 θ00,다음의 상계가 성립한다.

DTV(µ(θt, t∈[T]), µ(ξt, t∈[T]))≤C v u u t T

n +o T(logn)p−4+δ2 n1+δ2

! , 여기서C는D1와D2에만의존하는상수다.

Proof.

θt+1t−ηV(θt)−1n[∇θℓ(θt,z)]

t−ηV(θt)−1E[∇θℓ(θt,z)] +ηV(θt)−1(E[∇θℓ(θt,z)]−Eˆn[∇θℓ(θt,z)])

t−ηV(θt)−1b(θt) +p

−1η 1

√n

n

X

i=1

Xit)

Sn(X, θt) = 1n

n

P

i=1

Xit) 이라고하자.

부록의가정(1)과(2)하에, [1]의Theorem 6.1에의하면각단계t마다 다음이 성립한다.

어떤상수C >0 에대해

DKL(µ(Sn(X, θt))∥µ(gt)|θt) = C

n +o (logn)p−(4+δ)2 n1+δ2

! .

(11)

두확률과정의relative entropy에대해연쇄법칙을적용하면다음과 같다.

DKL(µ(θt, t∈[T])∥µ(ξt, t∈[T]))

(∗)= DKL(µ(θt, t∈[T−1])∥µ(ξt, t∈[T −1])) +

Z

DKL(µ(Sn(X, θT−1))∥µ(gT−1)|θT−1)dµ(θt, t∈[T−1])

≤DKL(µ(θt, t∈[T −1])∥µ(ξt, t∈[T−1])) +o (logn)p−(4+δ)2 n1+δ2

!

≤DKL(µ(θt, t∈[T −2])∥µ(ξt, t∈[T−2])) +

Z

DKL(µ(Sn(X, θT−2))∥µ(gT−2)|θT−2)dµ(θt, t∈[T−2]) +o (logn)p−(4+δ)2 n1+δ2

!

≤ · · · ≤DKL(µ(θ0)∥µ(ξ0)) + CT

n +o T(logn)p−(4+δ)2 n1+δ2

!

= CT

n +o T(logn)p−(4+δ)2 n1+δ2

!

(∗∗)

.

(∗)에는relative entropy에대한연쇄법칙과다음의사실을 이용했다.

a, b <0 에대해,DKL(µ(a+bX)∥µ(a+bY)) =DKL(µ(X)∥µ(Y)).

즉,

DKL(µ(θT)∥µ(ξT))

=DKL µ θT−1−ηV(θT−1)−1b(θT−1) +p

−1η 1

√n

n

X

i=1

XiT−1)

!

µ

θT−1−ηV(θT−1)−1b(θT−1) +p

−1η gT−1

T−1

=DKL µ 1

√n

n

X

i=1

XiT−1)

!

µ(gT−1) θT−1

!

=DKL(µ(Sn(X, θT−1))∥µ(gT−1)|θT−1).

(∗∗)에(6)을적용하면두확률과정의총변동거리의상계을구할수있다.

즉,

DTV(µ(θt, t∈[T]), µ(ξt, t∈[T]))≤C v u u t T

n +o T(logn)p−4+δ2 n1+δ2

! .

Remark.위에서구한비점근적상계의결과에의해, MasGrad갱신θt의결합분포와diff MasGrad

(12)

갱신ξt의결합분포가 가깝다는것을알수있다.따라서, MasGrad갱신θt의분포의특성을 확률적갱신인diff MasGrad갱신ξt의분포를이용하여추론할수있다.

(13)

3 MasGrad의 수렴 분석

이 장에서는목적함수L(θ)가 강볼록(strongly convex) 함수인 경우와 볼록이아닌(non- convex)경우에MasGrad갱신θt의수렴성을분석할것이다.특히,일반화선형모형(General Linear Models, GLMs)의경우적절한조건하에MasGrad의표준화아이디어는네스테로프 가속(Nesterov acceleration)성질을가진다.즉,경사하강법과MasGrad의경우ϵ-minimizer 에대한총반복 횟수T는 다음과 같다:

TGD=Oϵ,κ

κlog1 ϵ

, TMasGrad=Oϵ,κ

√ κlog1

ϵ

, for someκ >1.

이 장의 내용역시[4]의결과를알기쉽게정리한것이다.

3.1 Non-convex case

L(θ) = Ez∼Pℓ(θ,z)는 매끄러운 비볼록 함수(smooth non-convex function), b(θ) =

∇L(θ), H(θ) = ∇2L(θ) 그리고 V(θ) = {Cov [∇θℓ(θ,z)]}1/2 ∈ Rp×p가 양의 정부호 행 렬이라고하자.그리고아래와같이γ를정의하자.

γ := max

v,w λmax

V(w)12H(v)V(w)12

>0.

이때다음의 정리가성립한다.

Theorem 2. (MasGrad: non-convex)([4]의 Theorem 5.1)

γ는 위에서 정의한 것이라고 하자. 그리고 단계-크기가 η = 1/γ라고 할 때, MasGrad 갱신 θt와diff MasGradξt를고려하자. 그러면 임의의정밀도(precision) ϵ, δ >0에대해

(1) DTV(µ(θt, t∈[T]), µ(ξt, t∈[T]))≤Oδ(δ), (2) Emin

t≤T ∥∇L(θt)∥ ≤ϵ, Emin

t≤T ∥∇L(ξt)∥ ≤ϵ 를 만족하는T, n은다음과 같다:

T = 2γ(L(ξ0)−minξ L(ξ)) +pδ2

ϵ2 ·

maxξ ∥V(ξ)∥ ∨1

, n= T δ2. 그리고독립적인표본의개수는총 Oϵ,δ−4δ−2)이다.

(14)

Proof. 편의상H˜c=H(˜cξt+ (1−c)ξ˜ t+1),C= maxξ ∥V(ξ)∥라고하자.테일러정리에의해,

˜

c∈[0,1]에대해다음식이성립한다.

E[L(ξt+1)|ξt]

(∗)= E

"

L(ξt) +⟨b(ξt), ξt+1−ξt⟩+1

2(ξt+1−ξt)TH(˜cξt+ (1−˜c)ξt+1)(ξt+1−ξt)

ξt

#

(∗∗)

≤ L(ξt)−η

b(ξt),V(ξt)−1b(ξt) +E

"

γ 2

ηV(ξt)12b(ξt)−p

−1ηV(ξt)12gt

2

ξt

#

≤L(ξt)−η

V(ξt)12b(ξt)

2

2γ 2

V(ξt)12b(ξt)

2

−1ηγE[

V(ξt)12gt

2t]

≤L(ξt)− 1 2γ

V(ξt)12b(ξt)

2

+C12 ·pβ−1ηγ. (7)

위부등식의(*)와(**)는아래의식을 이용했다.

(∗) 테일러정리

(∗∗) ξt+1−ξt=−ηV(ξt)−1b(ξt) +p

−1η gt,γ = max

v,w λmax

V(w)12H(v)V(w)12

(7)의양변에 ξt에 대한 기댓값을취하고 t= 0부터T −1까지차례로 더하면다음식이 나온다.

L(ξ0)−min

ξ L(ξ) +C12 ·pβ−1ηγT ≥

T−1

X

t=0

1 2γE

V(ξt)12b(ξt)

2

,

E min

t≤T

V(ξt)12b(ξt)

2 ≤ L(ξ0)−minξ L(ξ) +C12 ·pβ−1ηγT T /2γ

= 2γ(L(ξ0)−minξ L(ξ))

T +C12 ·p n. E min

t≤T ∥b(ξt)∥ ≤ϵ 를 만족하는ϵ-정상점(stationary point)을구하기 위해 다음과 같은 작업이필요하다.

1

C12Emin

t≤T ∥b(ξt)∥2 ≤E min

t≤T

V(ξt)12b(ξt)

2 ≤ 2γ(L(ξ0)−minξ L(ξ))

T +C12 · p n ≤ ϵ2

C12 . 따라서아래의T,n을선택하면

T = C12[2γ(L(ξ0)−minξ L(ξ)) +C12 ·pδ2]

ϵ2 , n= T

δ2 ϵ-정상성(stationarity)이만족한다.

Emin

t≤T ∥b(ξt)∥

2

≤E min

t≤T ∥b(ξt)∥2 ≤ϵ2.

그리고Theorem 1에 의해두 확률 과정의총 변동 거리에대한상계를 δ에 대해 표현할

(15)

수있다.

DTV(µ(θt, t∈[T]), µ(ξt, t∈[T]))≤O rT

n

!

≤C rT

n ≤Oδ(δ).

여기서독립적인표본의총개수는N =nT =Oϵ,δ−4δ−2) 이다.

3.2 Strongly convex case

목적함수L(θ) = Ez∼P[ℓ(θ,z)]는 강볼록 함수,b(θ) = ∇L(θ), H(θ) = ∇2L(θ) 그리고 V(θ) ={Cov [∇θℓ(θ,z)]}1/2∈Rp×p가양의정부호행렬이라고하자.그리고아래와같이α, γ를정의하자.

α:= min

v,w λmin

V(w)12H(v)V(w)12

>0, γ := max

v,w λmax

V(w)12H(v)V(w)12

>0.

이때다음의 보조정리와정리가성립한다.

Lemma 2. (Convergence: noiseless) ([4]의Lemma B.1)

함수 L(w) : Rp → R가 매끄러운 볼록 함수라고 하자. 그리고 b(w), H(w), V(w), α, γ는 위에서 정의한 것이라고 할 때, 단계-크기가 η = 1/γ인 결정론적 갱신(deterministic update)wt+1 =wt−ηV(wt)−1b(wt)는 다음을 만족한다.

L(wt+1)−min

w L(w)≤

1− α

γ

L(wt)−min

w L(w)

.

Proof. 테일러정리에의해, ˜c∈[0,1]에대해다음식이성립한다.

L(wt+1) =L(wt)+⟨b(wt), wt+1−wt⟩+1

2(wt+1−wt)TH(˜cwt+(1−˜c)wt+1)(wt+1−wt). (8) 편의상H˜c=H(˜cwt+ (1−c)w˜ t+1)라고하자.그리고(8)에wt+1=wt−ηV(wt)−1b(wt) 를대입한뒤정리하면다음과 같다.

(16)

L(wt+1) =L(wt)−η

b(wt),V(wt)−1b(wt) +η2

2

V(wt)−1b(wt)T

H˜c

V(wt)−1b(wt)

=L(wt)−η

b(wt),V(wt)−1b(wt) + η2

2 h

V(wt)12b(wt) iT

V(wt)12H˜cV(wt)12 h

V(wt)12b(wt) i

(∗)

≤ L(wt)−η

V(wt)12b(wt)

2

2γ 2

V(wt)12b(wt)

2

=L(wt)− 1 2γ

V(wt)12b(wt)

2

. (9)

(∗)에는γ의정의를사용했다.즉,γ := max

v,w λmax

V(w)12H(v)V(w)12

.

wt+1 대신 임의의 w에 대해 다시 테일러 정리를 이용하면, ˜c ∈ [0,1]에 대해 다음 식이 성립한다.편의상H˜c=H(˜cwt+ (1−c)w)라고˜ 하자.

L(w) =L(wt) +⟨b(wt), w−wt⟩+1

2(w−wt)TH˜c(w−wt)

=L(wt) +D

V(wt)12b(wt),V(wt)12(w−wt)E +1

2(w−wt)TH˜c(w−wt)

=L(wt) + D

V(wt)12b(wt),V(wt)12(w−wt) E

+ 1 2 h

V(wt)12(w−wt)iT

V(wt)12H˜cV(wt)12 h

V(wt)12(w−wt)i

(∗∗)

≥ L(wt) +D

V(wt)12b(wt),V(wt)12(w−wt)E +α

2

V(wt)12(w−wt)

2

(∗∗∗)

≥ L(wt)− 1 2α

V(wt)12b(wt)

2

. (10)

위부등식의(**)와(***)는아래의식을 이용했다.

(∗∗) α:= min

v,w λmin

V(w)12H(v)V(w)12 (∗ ∗ ∗) D

V(wt)12b(wt),V(wt)12(w−wt) E

+α 2

V(wt)12(w−wt)

2≥ − 1 2α

V(wt)12b(wt)

2

⇐⇒

√1

αV(wt)12b(wt) +√

αV(wt)12(w−wt)

2

≥0 (9), (10)을정리하면다음과 같다.

α

γ(L(w)−L(wt))≥ − 1 2γ

V(wt)12b(wt)

2 ≥L(wt+1)−L(wt)

⇒L(wt+1)−L(w)≤

1−α γ

(L(wt)−L(w)). (11)

(11)에서L의최솟값을가지는w를선택하면다음의결과가나온다.

(17)

L(wt+1)−min

w L(w)≤

1− α

γ

L(wt)−min

w L(w)

.

Theorem 3. (MasGrad: strongly convex)([4]의Theorem 4.1)

α, γ는 위에서 정의한것이라고 하자. 그리고 단계-크기 η = 1/γ인 MasGrad 갱신 θt와 θt에대응하는 diff MasGrad 갱신 ξt를고려하자. 그러면 임의의 정밀도(precision) ϵ >0에 대해

(1) DTV(µ(θt, t∈[T]), µ(ξt, t∈[T]))≤Oϵp

ϵlog 1/ϵ , (2) t≤T에대해 E[L(θt)]−min

θ L(θ)≤ϵ와 E[L(ξt)]−min

ξ L(ξ)≤ϵ 를 만족하는T, n은다음과 같다:

T = γ

αlog2(L(ξ0)−minξ L(ξ))

ϵ , n= 4pmaxξ ∥V(ξ)∥

αϵ .

그리고독립적인표본의총개수는 Oϵ−1log 1/ϵ)이다.

Proof. 편의상H˜c =H(˜cξt+ (1−˜c)ξt+1) 라고하자.테일러정리에의해, ˜c∈[0,1]에대해 다음식이성립한다.

E[L(ξt+1)|ξt]

=E

L(ξt) +⟨b(ξt), ξt+1−ξt⟩+1

2(ξt+1−ξt)TH(˜cξt+ (1−˜c)ξt+1)(ξt+1−ξt) ξt

(∗)= E h

L(ξt) +D

b(ξt),−ηV(ξt)−1b(ξt) +p

−1η gtE + 1

2

ηV(ξt)−1b(ξt) +p

−1η gt

T

H˜c

ηV(ξt)−1b(ξt) +p

−1η gt ξt

=L(ξt)−η

b(ξt),V(ξt)−1b(ξt) +E

1 2

ηV(ξt)12b(ξt)−p

−1ηV(ξt)12gt

T

V(ξt)12H˜cV(ξt)12

ηV(ξt)12b(ξt)−p

−1ηV(ξt)12gt ξti

(∗∗)

≤ L(ξt)−η

b(ξt),V(ξt)−1b(ξt) +E

"

γ 2

ηV(ξt)12b(ξt)−p

−1ηV(ξt)12gt

2

ξt

#

(∗∗∗)

≤ L(ξt)−η

V(ξt)12b(ξt)

2

2γ 2

V(ξt)12b(ξt)

2

−1ηγE

V(ξt)12gt

2 ξt

=L(ξt)− 1 2γ

V(ξt)12b(ξt)

2

−1⟨Ip,V(ξt)⟩. (12)

(18)

위부등식의(*)와(**), (***)는아래의식을 이용했다.

(∗) ξt+1−ξt=−ηV(ξt)−1b(ξt) +p

−1η gt

(∗∗) γ = max

v,w λmax

V(w)12H(v)V(w)12

(∗ ∗ ∗)

E

"

γ 2

ηV(ξt)12b(ξt)−p

−1ηV(ξt)12gt

2

ξt

#

= η2γ 2 E

V(ξt)12b(ξt)

2 ξt

−1ηγE

V(ξt)12gt

2 ξt

−ηγp

−1ηE h

b(ξt)Tgt

ξt

i

= η2γ 2

V(ξt)12b(ξt)

2

−1ηγE

V(ξt)12gt

2 ξt

(12)의 양변에 ξt에 대한 기댓값을 취한 결과와 Lemma 2의 결과로부터 다음을 얻을 수 있다:

E[L(ξt+1)]≤E[L(ξt)]− 1 2γE

V(ξt)12b(ξt)

2

−1⟨Ip,EV(ξt)⟩, L(ξ)≥E[L(ξt)]− 1

2αE

V(ξt)12b(ξt)

2

⇒ α

γ(L(ξ)−E[L(ξt)])≥ − 1 2γE

V(ξt)12b(ξt)

2

≥E[L(ξt+1)]−E[L(ξt)]−β−1⟨Ip,EV(ξt)⟩

⇒E[L(ξt+1)]−L(ξ)≤

1−α γ

(E[L(ξt)]−L(ξ)) +β−1⟨Ip,EV(ξt)⟩. (13) (13)에서L의최솟값을가지는ξ를선택하고,⟨Ip,EV(ξt)⟩ ≥p·maxξ ∥V(ξ)∥라는사실을 이용하면다음의결과가나온다:

E[L(ξt+1)]−min

ξ L(ξ)≤

1−α

γ

(E[L(ξt)]−min

ξ L(ξ)) +β−1⟨Ip,EV(ξt)⟩

1−α γ

(E[L(ξt)]−min

ξ L(ξ)) +β−1p·max

ξ ∥V(ξ)∥

⇒E[L(ξk)]−min

ξ L(ξ)≤

1−α

γ k

(E[L(ξ0)]−min

ξ L(ξ)) +β−1p·maxξ ∥V(ξ)∥

1−(1− αγ) . (14)

아래의T,n을선택하면(14)의 우변의두항각각이ϵ/2보다 작게되므로 t≤T에대해 E[L(ξt)]−minξ L(ξ)≤ϵ이성립한다.

(19)

T = γ

αlog2(L(ξ0)−minξ L(ξ))

ϵ , n= 4pmaxξ ∥V(ξ)∥

αϵ .

그리고 Theorem 1에 의해 두확률과정의 총변동거리에대한상계를 ϵ에 대해 표현할

수있다.

DTV(µ(θt, t∈[T]), µ(ξt, t∈[T]))≤O rT

n

!

≤Oϵ

pϵlog 1/ϵ

. 여기서독립적인표본의총개수는N =nT =Oϵ−1log 1/ϵ)이다.

3.3 일반화 선형 모형에서의 가속

Definition. L(θ)가 강볼록 함수라고 하자. 경사하강법의 수렴속도는 L(θ)의 헤시안행렬 (Hessian matrix)의조건수(condition number)에비례한다.즉,

κGD:=

maxv λmax(H(v)) minv λmin(H(v)).

Theorem 3의식(14)에서알수있듯이, MasGrad의수렴성은 αγ에의존한다:

E[L(ξt)]−min

ξ L(ξ)≤

1−α

γ t

E[L(ξ0)]−min

ξ L(ξ)

+ max

ξ ∥V(ξ)∥ · γ αβ−1p.

따라서, MasGrad의조건수는 다음과 같이정의할수있다.

κMasGrad :=

maxv,w λmax

V(w)12H(v)V(w)12

minv,w λmin

V(w)12H(v)V(w)12 = γ α

일반화선형모형에서MasGrad가네스테로프가속을만족함을보이자.우선,일반화선형

모형을다음과 같이정의하자.

f(y;θ, ϕ) =b(y, ϕ) exp

yθ−c(θ) d(ϕ)

여기서 ϕ는 알려진 모수, µ = E[y|x=x] = c(θ), c′′(θ) > 0, θ = θ(µ) = xTw 일 때, 목적함수로음의로그가능도함수를사용하면다음이 성립한다:

ℓ(w,(x,y)) =−yxTw+c(xTw)⇒L(w) =E(x,y)∼P

−yxTw+c(xTw) .

그리고 실제 회귀 함수를 m(x), 조건부 분산을 ξ(x) = Var(y|x = x) ∈ R, 편향을 β(x, w) = c(xTw)−m(x)∈R이라고하자. 위와 같은 일반화선형모형에대해서 다음의

(20)

가속이성립한다.

Theorem 4. (Acceleration)([4]의 Theorem 4.2)

임의의v, w, x에 대해, 아래 부등식을 만족하는 상수 C >1가 존재한다고 가정하자.

0<max

ξ(x)2+β(x, w)2

c′′(xTv) , c′′(xTv) ξ(x)2

< C1/3.

그러면상기한조건을만족하는일반화선형모형에대해, 다음의 부등식이 성립한다.

κMasGrad< C√ κGD.

Proof. 우선 Cov [β(x, w)x]⪯E

β(x, w)2xxT

이 성립한다. 그리고 편향-분산분해를이용 하면아래와같이V(w),H(w)를구할수있다.

V(w) = (Cov [∇ℓ(w,(x,y))])1/2 = Cov

−yx+c(xTw)x1/2 (∗)= E

ξ(x)2xxT

+ Cov [β(x, w)x]1/2

, (15)

H(w) =∇2L(w) =E

c′′(xTw)xxT

. (16)

위부등식의(*)는아래의편향-분산분해를이용했다.

ξ(x) =Var(y|x) =E h

(y−E[y|x])2|xi

=E h

(y−m(x))2|xi Cov

−yx+c(xTw)x

= Cov [β(x, w)x−(y−m(x))x]

=E[Cov [β(x, w)x−(y−m(x))x|x]]

+ Cov [E[β(x, w)x−(y−m(x))x|x]] (by Law of total variance)

=E[Cov [(y−m(x))x|x]] + Cov [β(x, w)x−E[(y−m(x))x|x]]

(∗∗)= E

ξ(x)xxT

+ Cov [β(x, w)x]

(∗∗) E[(y−m(x))x|x] =x(E[y|x]−m(x)) = 0 Cov [(y−m(x))x|x] =E

(y−m(x))2xxT|x

=E

(y−m(x))2|x

xxT =ξ(x)xxT 그리고식(15)으로부터아래의행렬부등식을얻을수있다.

(21)

E

ξ(x)2xxT

⪯V(w)2

=E

ξ(x)2xxT

+ Cov [β(x, w)x]

⪯E

ξ(x)2+β(x, w)2 xxT

(17) 상수C에대한가정에의해다음부등식이성립한다:

C−1/3 ≤ c′′(xTv)

ξ(x)2+β(x, w)2 ≤ c′′(xTv)

ξ(x)2 ≤C1/3. (18)

그러면식(16)으로부터아래의행렬부등식을얻을수있다.

H(v) =E

c′′(xTv)xxT

=E

c′′(xTv)

ξ(x)2 ξ(x)2xxT

(a),(b)

≺ C1/3V(w)2 (19) H(v) =E

c′′(xTv)xxT

=E

c′′(xTv)

ξ(x)2+β(x, w)2(ξ(x)2+β(x, w)2)xxT

(17),(18)

≻ C−1/3V(w)2 (20)

v가A의첫번째고유벡터라고하면다음이성립한다:

A⪯B ⇒λmax(A) =vTAv < vTBv≤λmax(B). (21) 비슷한방법으로

A⪯B ⇒λmin(A)< λmin(B) 이다.그리고임의의대칭행렬S에대해,

A⪯B⇒SAS ⪯SBS (22)

가성립한다.

따라서,위결과들을 이용해다음부등식을얻을수있다.

H(v)⪯C1/3V(w)2

(22)⇒ V(w)12H(v)V(w)12 ⪯C1/3V(w)12V(w)2V(w)12

(21)⇒ λmax

V(w)12H(v)V(w)12

< C1/3λmax

V(w)12V(w)2V(w)12

≤C1/3max

w λmax(V(w)).

(23) 비슷한방법으로다음부등식을얻을수있다.

(22)

λmin

V(w)12H(v)V(w)12

> C−1/3λmin

V(w)12V(w)2V(w)12

≥C−1/3min

w λmin(V(w)).

(24)

κMasGrad의정의와위결과들을 이용해최종적인부등식을얻을수있다.

κMasGrad =

maxv,w λmax

V(w)12H(v)V(w)12 minv,w λmin

V(w)12H(v)V(w)12

(23),(24)

C1/3max

w λmax(V(w)) C−1/3min

w λmin(V(w))

≤C2/3 v u u t

maxw λmax(V(w)2) minw λmin(V(w)2)

(19),(20)

≤ C v u u t

maxv λmax(H(v)) minv λmin(H(v))

=C√ κGD

Remark. Theorem 4와 Lemma 2의 결과로부터 노이즈가 없는 환경(noiseless setting)에서 GD의시간복잡도는O(κGDlog(1/ϵ))인반면, MasGrad의시간복잡도는O(√

κGDlog(1/ϵ)) 임을알수 있다.특히 GD의조건수(κGD)가 클때,위 시간복잡도의차이는극명하게나타 난다.

(23)

4 매끄럽지 않은 정규화 문제

이 장에서는 매끄럽지않은 정규화항이 있는 목적함수를 최소화하는 문제(non-smooth regularization problem)에대해서알아보자.이문제를최적화식으로나타내면다음과 같다:

minimize

x∈Rn

L(x) :=g(x) +h(x), (25)

여기서g는볼록이고연속적으로미분가능한 함수이고h는볼록이지만 연속일 필요는없는 정규화항이다.대표적으로아래의예시가있다.

1. Sparse regression

L(w) =E(x,y)∼P

1

2 xTw−y2

+λ∥w∥1 :=g(w) +h(w).

2. Low rank matrix trace regression

L(W) =E(X,y)∼P

1

2(⟨X, W⟩ −y)2

+λ∥W∥:=g(W) +h(W).

정규화 항이 있는 목적함수 (25)을 최적화하는 방법으로는 정규화 항이 없는 목적함수 (1)을 최적화하는방법인뉴턴방법과MasGrad에 각각대응하는근위뉴턴 방법(proximal- newton type method, ProxNewton [3])과 적률 조정 근위 경사하강법(moment adjusted proximal gradient descent method, MadProx [4])이 있다.두방법을설명하기에 앞서, scaled proximal mapping을정의하자.

Definition. h는볼록함수이고H는양의정부호행렬이라고하자.그러면x에서h의scaled proximal mapping은다음과 같다:

proxHh(x) := argmin

y∈Rn

1

2∥y−x∥2H+h(y)

. (26)

Note. Scaled proximal mapping은 (unscaled) proximal mapping과 많은 성질을 공유하고 있다:

1. H가 양의 정부호 행렬이라면 근위 함수는 강볼록이므로, proxHh(x)는 x ∈ dom h에 유일하게존재한다.

2. ∂h(x)가x에서h의하방미분(subdifferential)이라고하자. 그러면proxHh(x)는 다음을 만족한다.

H x−proxHh(x)

∈∂h proxHh(x) .

(24)

3. Scaled proximal mapping은H-노름에있어서단단히 비확장적(firmly nonexpansive) 이다.

proxHh(x)−proxHh(y)

H ≤ ∥x−y∥H.

4.1 ProxNewton

목적함수(25)을 최소화하기 위한대표적인 이차 반복법으로 근위뉴턴 방법(Proximal-

Newton type method, ProxNewton)이 있다. 참고문헌 [3]의 ProxNewton은 뉴턴 방법의 proximal 버전으로, g의 곡률을 계산하기 위해 g의 헤시안 행렬 ∇2g(x)을 사용한다. 다시 말해서, ProxNewton의 검색 방향 ∆x(식 (2)에서 −h에 해당)는 다음과 같은 부분 문제를 풀어서구할수있다:

∆x= argmin

d

L(xˆ +d) := ˆg(x+d) +h(x+d), where ˆg(y) =g(x) +∇g(x)T(y−x) +1

2(y−x)T2g(x)(y−x). (27)

4.2 MadProx

함수 g의 이차 근사식 (27)에서 g의 헤시안 행렬 ∇2g(x) 대신 이차 적률 행렬 V(x) = {Cov [∇g(x)]}1/2을사용하여목적함수를최적화하는방법을적률조정근위경사하강법(mo- ment adjusted proximal gradient descent method, MadProx)이라고 한다. ProxNewton과 마찬가지로MadProx의검색방향∆x는 다음과 같은부분문제를풀어서구할수있다:

∆x= argmin

d

L(xˆ +d) := ˆg(x+d) +h(x+d), (28) where ˆg(y) =g(x) +∇g(x)T(y−x) +1

2(y−x)TV(x)(y−x).

(25)

5 MadProx의 성질

식 (28)의 검색 방향 ∆x는 scaled proximal mapping을 사용하여 표현할 수 있기 때문 에 아래의∆x을 사용하여 적률조정 근위경사하강법(moment adjusted proximal gradient descent method, MadProx)을정의할것이다:

∆x= proxV(x)h x−V(x)−1∇g(x)

−x.

또한, 적당히작은 η ∈(0,1]에대하여 검색 방향 ∆x을사용하여x를갱신하면, 즉x ← x+η∆x,목적함수L은감소한다:

L(x+η∆x)≤L(x).

위부등식을만족하는 적당히작은 단계-크기η는직선 탐색 과정(line search procedure)을 통해구할것이다.

참고문헌[4]의 MadProx는이차적률 행렬 V(xt)이갱신되는변수 xt에 의존하지 않고, 즉 V(xt) = V for all t, 매 반복마다 단계-크기가 η = 1/γ로 고정되었을 때의 MadProx 갱신 xt의 수렴분석을 하였다.본 논문에서는 [3]을 참고하여 매 반복마다 고정된 η가아닌 Algorithm 1의직선탐색과정으로구한ηt를이용하고(29)에서정의한검색방향∆x를이 용하여MadProx 갱신xt을정의하였다. MadProx갱신xt에대한자세한과정은Algorithm 2에나와있다.

5.1 검색 방향

Proposition 2. MadProx의검색방향∆x는scaled proximal mapping을 사용해서 정리하 면다음과 같다:

∆x= proxV(x)h x−V(x)−1∇g(x)

−x. (29)

Proof. x+=x+ ∆x라고하자.그러면(28)로부터

x+= argmin

y

L(y) = argminˆ

y

ˆ

g(y) +h(y)

이다. ˆg(y)의 정의를 이용하면 다음과 같이 x+를 scaled proximal mapping을 사용하여 표현할수있다:

(26)

x+= argmin

y

L(y)ˆ

= argmin

y

ˆ

g(y) +h(y)

= argmin

y

g(x) +∇g(x)T(y−x) +1

2(y−x)TV(x)(y−x) +h(y)

= argmin

y

1

2∇g(x)TV(x)−1∇g(x) +∇g(x)T(y−x) +1

2(y−x)TV(x)(y−x) +h(y)

= argmin

y

1 2

y−x+V(x)−1∇g(x)

2

V(x)+h(y)

= proxV(x)h x−V(x)−1∇g(x) . x+=x+ ∆x이므로

∆x= proxV(x)h x−V(x)−1∇g(x)

−x.

이다.

Remark. 즉, MadProx 갱신xt는 다음과 같다:

xt+1=xtt∆xt, (30)

where ∆xt= proxV(xh t) xt−V(xt)−1∇g(xt)

−xt. 여기서ηt는 단계-크기(step-size)이다.

Proposition 3. V(x)가 양의 정부호 행렬일 때, (29)에서 정의한 MadProx의 검색 방향

∆x는 다음을 성질을만족한다.

L(x+)≤L(x) +η ∇g(x)T∆x+h(x+ ∆x)−h(x)

+O(η2), (31)

∇g(x)T∆x+h(x+ ∆x)−h(x)≤ −∆xTV(x)∆x. (32) 여기서x+ =x+η∆x이고 η는 단계-크기이다.

Proof. 증명은[3]의Proposition 2.4을참조하였다.

η∈(0,1]에대해

(27)

L(x+)−L(x) =g(x+)−g(x) +h(x+)−h(x)

≤g(x+)−g(x) +ηh(x+ ∆x) + (1−η)h(x)−h(x)

≤g(x+)−g(x) +η(h(x+ ∆x)−h(x))

=∇g(x)T(η∆x) +η(h(x+ ∆x)−h(x)) +O(η2)

=η ∇g(x)T∆x+h(x+ ∆x)−h(x)

+O(η2).

위부등식의마지막줄로부터(31)이성립함을알수있다.

한편, (28)으로부터

∆x= argmin

d

ˆ

g(x+d) +h(x+d) = argmin

d

g(x) +∇g(x)Td+1

2dTV(x)d+h(x+d)

이므로

∇g(x)T∆x+1

2∆xTV(x)∆x+h(x+ ∆x)

≤ ∇g(x)T(η∆x) +1

2(η∆x)TV(x)(η∆x) +h(x+η∆x)

=η∇g(x)T∆x+1

2∆xTV(x)∆x+h(x+)

≤η∇g(x)T∆x+1

2∆xTV(x)∆x+ηh(x+ ∆x) + (1−η)h(x).

위부등식의우변을좌변으로이항하면다음과 같이정리할수있다:

(1−η)∇g(x)T∆x+1

2(1−η2)∆xTV(x)∆x+ (1−η)(h(x+ ∆x)−h(x))≤0

÷(1−η)

⇒ ∇g(x)T∆x+1

2(1 +η)∆xTV(x)∆x+h(x+ ∆x)−h(x)≤0

⇒ ∇g(x)T∆x+h(x+ ∆x)−h(x)≤ −1

2(1 +η)∆xTV(x)∆x. (33) (33)에서η→1일때,부등식(32)이성립한다.

Note. (31)에 (32)을 대입하면 L(x+) ≤ L(x)−η∆xTV(x)∆x+O(η2)이고 V(x)는 양의 정부호행렬,즉∆xTV(x)∆x >0,이므로적당히작은η에서검색방향∆x을사용하여x를 갱신하면 목적함수L은감소한다:

L(x+)≤L(x)−η∆xTV(x)∆x+O(η2)≤L(x).

Gambar

Figure 1: Experiment 1 (λ = 0.001)
Figure 2: Experiment 2 (λ = 0.001)
Figure 3: Experiment 3 (λ = 0.001)
Figure 4: Experiment 4 (λ = 0.001)

Referensi

Dokumen terkait

다음과 같은 조건을 따라야 합니다: l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다.. l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지

다음과 같은 조건을 따라야 합니다: l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다.. l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지

따라서 본 연구에서는 의료이용 양상의 심층적 분석이 가능한 ‘한국의 료패널’ 자료를 바탕으로 IPAQInternational Physical Activity Questionnaire 를 이용하여 노인의 신체활동 수준과 주관적 건강인식 및 의료이용과의 관계를 살펴보고, 관련된 요인들을 파악하고자 한다... 연구 대상자의 신체활동

T1 and T2 by the tensile twins d ...77 Figure 4.9 a H-P relation of the AZ31 specimens calculated by VPSC and b the ratios of the deformation modes to the basal slip mode as a function

미래유산은 문화재로 등록되지 않은 서울의 근현대 문화유산 중 에서 미래세대에게 전달할 만한 가치가 있는 유·무형의 모든 것으로, 서울사람들이 근현대를 살아오면서 함께 만들어온 공통의 기억 또는 감성으로 미래세대에게 전 할 100년 후의 보물문화 이해에 도움이 되는 것들을 대상으로 지정하고 있다.12 이와 같은 기존의 제도를

◦ 온라인 보험 비교서비스는 보험대리점이 제공하는 것임 ◦ 온라인 보험 비교서비스를 통해 보험계약 체결시 보험회사로 부터 모집 관련 수수료를 수취한다는 사실 ◦ 보험회사의 자회사인 경우 이러한 사실 ◦ 보험대리점과 모집 위탁계약을 체결한 보험회사의 일부 보험 상품만을 비교·설명한다는 사실과 그 보험회사의 명칭 181

이를 위해서는 실제 보험소비자가 어떠한 과정을 통해 의사결정을 하고, 의사결정을 하는 과정에서 어떠한 문제를 경험하고 있으며, 이러한 문제를 해결하기 위해 어떤 전략을 활용하는지 등에 대한 총체적인 이해 가 선행되어야 한다.. 이러한 필요성에도 불구하고 소비자 의사결정에 관한 기존의 연구는 일반적인 재화나 서비스에 대한 연구에