近況ご報告(服部久美子・首都大学東京・数学)
近況ご報告(服部哲弥・東北大学・理)と合わせてご覧下さい.
Stochastic ranking processの流体力学極限と2ch.net
Amazon.co.jp などのオンライン小売り業のランキングの時間発展を記述する多粒子系
の確率モデルを提案し,その無限粒子極限が存在すること,つまり,流体力学極限のよう に経験分布が分布値確率過程として決定論的な分布の時間発展に弱収束すること,を証明 する.この定理に基づく理論的予想が現実のwebのデータと良く合うことを実証し,結 果として得られる社会学的なパラメータ(パレート分布の指数)の実測値が,これまで計 量経済学的に分析されてきたよりもオンラインの小売業のインパクトが小さいことを意 味する,ということにも言及する.
1.Stochastic ranking process. Stochastic ranking process {Xi(N)(t)| t 0, i = 1,· · ·, N} は,Xi(N)(t)が粒子iの時刻tにおける順位を表すN 粒子系の確率過程で,以下 で定義する.各iに対して自然数x(N)i,0 (粒子iの初期順位x(N)i,0 =Xi(N)(0))と正数w(N)i >0 (jump rate)が与えられている.各iに対して増加確率変数列τi,j(N),j = 0,1,2,· · ·,はjump time の列で,この時刻に粒子iは1位Xi(N)(τi,j) = 1になり,他の粒子の順位Xi(N ), i =i は順に繰り下がって,全体として1位からN位の順位を保つ.Jump timeの列は粒子間で 独立で各粒子ごとにも独立増分でその分布は指数分布P[τi,j+1(N) −τi,j(N) t ] = 1−e−w(N)i t とする.Nが大きいときの振る舞いに興味がある.まず,P[τi(N)t ] = 1−e−w(N)i t から 大数の弱法則によって次を得る.
命題.Jump rateの分布λ(N)(dw) = 1 N
N
i=1
δ(w−w(N)i )dw がN → ∞で分布λに弱収束 するならばスケールされた軌道yC(N)(t) = 1
N{i|τi(N) t} はyC(t) = 1−
∞
0 e−wtλ(dw)
に確率収束する. 3
この軌道yC(t)は実際のwebのランキングと良く合う(後述).
2.無限粒子スケール極限. 直感的には,ランキングの上位にはjump rateの大きい粒 子が多く,下位はjumpしにくい粒子がたまりやすいと考えられるが,流体力学極限のよ うに経験分布の極限としてこの直感を厳密かつ精密に記述できる.以下を仮定する:
(1) スケールされた初期ランキングyi,0(N) = 1
N (x(N)i,0 −1)の分布(分布値確率変数)
µ(N)y,0 (dw)dy= 1 N
i
δ(w−w(Ni ))δ(y−yi,0(N))dw dy
はN → ∞で,yについて一様に,yのルベーグ測度に関して絶対連続な分布µy,0(dw)dy に収束する. (2) inf
y∈[0,1)µy,0([0, M])>0なるM がとれる. (3) λ({0}) = 0.
仮定(3)から直ちにyCが狭義増加となるので逆関数t0 : [0,1)→ [0,∞)が存在する.
yC(t)の定義を拡張してyC(y, t) = 1−
1
y
∞
0 e−wtµz,0(dw)dz とおく.仮定(2)の下で yC(y, t)はyについて狭義増加となるので逆関数yˆ(·, t) : [yC(t),1)→[0,1)が存在する.
近況ご報告(服部哲弥・東北大学・理)に続く.
1
近況ご報告(服部哲弥・東北大学・理)
近況ご報告(服部久美子・首都大学東京・数学)からの続きです.
主定理.(1)(2)(3)を仮定すると,スケールされたランキングYi(N)(t) = 1
N (Xi(N)(t)−1)
の位置とjump rateの直積空間上の経験分布(分布値確率変数)
µ(N)y,t (dw)dy= 1 N
i
δ(w−w(N)i )δ(y−Yi(N)(t))dw dy
はN → ∞で,y空間上のルベーグ測度に関する密度µy,t(dw)を持つ分布µy,t(dw)dyに
確率収束する. 3
主定理は,従属確率変数の和の大数の法則という意味で自明ではない.
µy,t(dw)の具体形も分かっていて(文献参照),次の偏微分方程式系の解になっている:
∂ µy,t(dw)
∂t + ∂(v(y, t)µy,t(dw))
∂y =−wµy,t(dw), ∂ v
∂y(y, t) =−
w µy,t(dw).
3.2ch.net と Amazon.co.jp. Stochastic ranking process は 2ch.net のスレッド一 覧の時間変化やAmazon.co.jp の本のランキングの時間変化の数学モデルと見ることがで きる.モデルとするにはjump rateの分布λを決める必要があるが,社会学や経済学では
Pareto分布(log-linear分布)が用いられることが多いようである.たとえばi番目に高所
得の人の所得はwi =a(N/i)1/b で与えられるとする分布のモデルである.これを用いると t= 0で1位の粒子(本やスレッド)の時刻tの順位はxC(t) =N(1−b(at)bΓ(−b, at))+1と なる.Γ(z, p) =
∞
p e−wwz−1dwは不完全ガンマ関数.左図と右図の点はそれぞれ2ch.net とAmazon.co.jpのランキングの実測データ,曲線はxC(t)を当てはめたものである.(いず れも横軸は時間,縦軸は順位.)2個のパラメータa, bをfitするだけで驚くほどよく合う.
10 50
10 40000
指数bの最尤値はいずれもb 0.6となった.既存のonline retail分析では古典的な手 法で得られたb >1が用いられているが,これは‘long-tail’側を過大評価することになり,
online retailの影響を過大評価していると考えられる.
我々の方法は応用上重要な指数bをデータから直接得る.その背景には主定理のよう に,ランキング上の1粒子の軌道によってtail側の多数の粒子(応用上は売れ行きの小さ い多数の商品)の動向が正確に記述できるという数学的裏付け(大数の法則)がある.ま た,2ch.netはstochastic ranking processの定義に近い単純な構造を持っており,スレッド
(粒子)のjumpの時刻がレスとして全て記録・公開されている.E. Coliが単純な生命と して分子生物学の初期の基礎技術確立に大きな役割を果たしたと聞くが,同様に2ch.net
はlong tail の経済学の基礎技術に役立つと考えられる.
参考文献.http://www.math.tohoku.ac.jp/˜hattori/liamazn.htm に置いてあります.
[1] K. Hattori, T. Hattori, Existence of infinite particle limit of stochastic ranking processes.
[2] K. Hattori, T. Hattori, Equation of motion for incompressible mixed fluid driven by evaporation and its application to online rankings.
2