確率統計の話題から −実際に計算してみよう−
杉浦 誠
平成 21 年 8 月 21 日 (平成 21 年 8 月 22 日修正)
1 確率を計算しよう
この節では具体的に確率を計算することで、直感と計算の結果の違いを比較してみましょう。
例題1.1 (誕生日) いまこの教室には17人います。この中で同じ誕生日の人はいるでしょうか。その確率 を求めてみましょう。ただし、簡単のため1年は365日とし、365日のどの日に生まれる確率も等しく 1 であると仮定します。1 365
確率を 17
365 =約0.0588とするのはもちろん誤りです。正しい解答を見てみましょう。
解答: 余事象を考え、17人の誕生日がすべて異なる確率qを求める。
17人を順に比較していくという方針をとる。
まず、2人の誕生日が異なる確率は、2人目が1人目と誕生日が異なればよいので364 365. 次に、3人目が1人目, 2人目と誕生日が異なる確率は 363
365 であるから、3人の誕生日が異なる確率は 364
365×363
365 となる。
同様に、4人の誕生日が異なる確率を求めると364 365 ×363
365×362 365. これを繰り返し、q=364
365 ×363 365×362
365× · · · × 349
365 = 0.6849923347· · · となる。
以上より、求める確率は1−q;0.3150である。 ¤ この例題で40人の場合を考えると、
1−364 365×363
365 ×362
365 × · · · ×365−40 + 1
365 = 0.8912318097· · · となり、結構大きな確率で起こることがわかります。
問 1.1 6人の誕生日がすべて異なる月となる確率を求めよ。ただし、簡単のためどの月に生まれる確率も 等しく 1
12であると仮定せよ。
問 1.2 次のようなサイコロを3回投げたとき、3回とも異なる目が出る確率を求めよ。
(1) どの目の出る確率も等しく1 6の場合 (2) 1の目の出る確率が1
5,そのほかの目が出る確率が 4
25 の場合
例題 1.2 (コイン投げ)オモテが出る確率がp,ウラの出る確率q= 1−pのコインがある。このコインをn 回投げてオモテ・ウラどちかが出るか調べる。このとき、オモテもしくはウラの同じ面が出続ける確率p1
とオモテ・ウラが交互に出る確率p2では、どちらが大きいか?
解答: nが偶数の場合k=l=n
2,奇数の場合k= n+ 1
2 ,l= n−1
2 と書く。
オモテがk+l回続けて出る確率はpk+l,ウラがk+l回続けて出る確率はqk+lであるから、p1=pk+l+qk+l となる。
1実際には季節などによって生まれる確率が異なるので、同じ誕生日の人がいる確率はこれより高くなります。
オモテ・ウラ・オモテ・ウラ・· · · と出る確率はオモテがk回, ウラがl回出るわけだからpkqlである。
同様に、ウラ・オモテ・ウラ・オモテ· · · と出る確率はqkplであるので、p2=pkql+qkplとなる。
では、p1, p2の大小を調べる。まず、次に注意する。
p1−p2 = (pk+l+qk+l)−(pkql+qkpl) =pk(pl−ql)−qk(pl−ql)
= (pk−qk)(pl−ql)
よって、p=qのときp1 =p2. p > qのときpk > qk, pl > qlとなるからp1 > p2. p < qのときpk < qk, pl< qlよりこの場合もp1> p2となる。 ¤
1654年のある日、フランスの数学者パスカルは、ド・メレという貴族から、ある質問を受けた。その質 問とは次のような問題であった。パスカルは、この問題を同じ数学者のフェルマーと手紙をやり取りして研 究し、その結果生まれたのが、「確率論」という分野である2。([9]より。)
例題 1.3 (ド・メロからパスカルへの質問) 同額の賭け金を出し合い、先に3勝したほうが勝ちとするゲー
ムで、時間の関係で途中でやめることになった。その時点で私が2勝1敗で勝っていたのだが、賭け金の分 配方法がよくわからなかった。結局私が3分の2、相手が3分の1ということにしたのだが、これでよかっ たのだろうか。
解答: ここでは両者の勝つ確率は等しいと仮定しよう。実際は「私」がリードしているので実力差があると 仮定してもよいかもしれないがやめておく3。
このゲームは5試合やれば必ず勝負がつくので、この勝負の残り2試合をしたとするとゲームの勝敗は 以下の表のようになる。ただし、「私」の勝ちをW,負けをLで表し、現在までの勝敗は2勝1敗なので順 序を考えないとし「(WWL)」と表す。
現在までの勝敗 4回戦 5回戦 勝者
(WWL) → W W 私
(WWL) → W L 私
(WWL) → L W 私
(WWL) → L L 相手
2人の実力は同じという前提なので、この4つの場合はどれも1
4 で起こる(このため途中で勝敗が決まる場
合も最後まで書いた)。つまり、「私」は確率3
4 で勝者のなったはずであるので、したがって賭け金もその 割合で配分されなくてはならない。正しい配分は「私」が3
4,相手が1
4 の賭け金を取るべきとなる。 ¤ 問 1.3 A氏とB氏が同額の賭け金を出し合い、先に5勝したほうが勝ちとするゲームを行い、時間の関係 で途中でやめることになった。賭け金を両者それぞれの勝つ確率にしたがって配分するとき、次の場合にA 氏が受け取るべき賭け金の割合を決定せよ。ただし、2人の実力は同じとして考えよ。
(1) その時点でA氏が4勝2敗で勝っていた場合 (2) その時点でA氏が3勝2敗で勝っていた場合
確率論における重要な定理に「大数の法則」がある。これはヤコブ・ベルヌイ(1654–1705)によって紹 介された。「大数の法則」とは、簡単に言えば、「個々の事象の予測は無理(もしくは極めて困難)であって も、充分に多くの試行がなされると仮定するなら、全体像はかなり正確に予想しうる」とする法則である。
式で書くと、繰り返し同じ試行を行うとき、その結果の列をX1, X2, . . .とすると、ある定数cがあって lim
n→∞
X1+X2+· · ·+Xn
n =c
2現在の確率論はルベーグ積分論を用いて定式化された。これはロシアの数学者コルモゴロフによってなされた。
3この「私」が勝つ確率を調べるというのが統計学の役割である。この場合百分率に関する区間推定の精密法(cf. [6])を使って区 間推定を行うと「私」の勝つ確率pは90%の確率で[0.135、0.983]の範囲にあることがわかる。したがって、「両者の勝つ確率は等 しい」という仮説は間違いとは言えないこととなる。
となることである4。このcは期待値と一致する。この定理の厳密な証明はコルモゴロフによってなされた。
ギャンブル産業が成立するのはこの定理に保証されているといえる。というのは、胴元が有利な賭けにお いては、数回の賭けでは損をすることがあっても、1月, 1年という長い期間を見ればかならず一定割合が 収益として計算できからである。それを次の例題で見てみよう(cf. [9], [8])。
例題1.4 ルーレットで赤か黒に賭けて勝つ確率は、どちらも18
38である5。このルーレットにチップを1枚 ずつ賭け、90枚持っているチップを100枚に増やしたい。100枚になるか、0枚になるかまで続けるものと する。100枚に到達する確率を求めよ。
解答: 1回の賭けで勝つ確率をp(= 9
19)とし、目標とする枚数をN(= 100)とかく。また、k枚のチップを 持っている人が目標枚数N枚に達する確率をakとする。
まず、一回の賭けで確率がどう変わるかを考えると
k枚
勝つ↗ k+ 1枚 ここから勝つ確率は ak+1
↘ 負ける
k−1枚 ここから勝つ確率は ak−1 これより、1回の賭けに勝つ確率はpであったから、
最初に勝って、それから最終的に勝つ確率 = p×ak+1 最初に負けて、それから最終的に勝つ確率 = (1−p)×ak−1 となる。よって、最初の賭けは勝ちか負けしかないから、漸化式
ak=p ak+1+ (1−p)ak−1 (1.1)
を得る。一方、所持金がなくなればもう賭けをすることができないから、N枚に到達できないのでa0= 0, N枚に達したらこれ以上賭けをしなければよいのでaN = 1となる。
では、この漸化式を解こう。まず、x=px2+ (1−p)xについて、(px−(1−p))(x−1) = 0と変形でき るのでx= 1−p
p ,1. (p̸= 1
2 より1−p
p ̸= 1となることに注意する。)これを踏まえ、漸化式を ak+1−ak= 1−p
p (ak−ak−1) と変形し、 ak+1−ak= (1−p
p )k
(a1−a0) = (1−p
p )k
a1
ak+1−1−p
p ak =ak−1−p
p ak−1 と変形し、 ak+1−1−p
p ak=a1−1−p
p a0=a1 を得る。
上式の最後の等号はa0= 0を用いた。これより、
(
−1 + 1−p p
) ak =
{(1−p p
)k
−1 }
a1
を得る。ここで、k=Nとし、aN = 1を用いると、−1 + 1−p p =
{(1−p p
)N
−1 }
a1. これよりa1を求 め、代入することで、
ak=
(1−p p
)k
−1 (1−p
p )N
−1
を得る6。以上より、1−p p = 10
9 でk= 90のときだから、求める確率は (10
9
)90
−1 (10
9
)100
−1 ;0.34866となる。
¤
4ここでは収束の意味を説明しない。詳しくは、確率論の専門書、例えば[1]を見てください。この本はエッセイ的なところもあっ て、確率統計に関する読み物としても楽しめる本です。
5ルーレットは0, 00と1から36の数字からなり、1–36の数字が赤,黒に18個ずつ割りあてられている。
6もしp= 12 であれば、(1.1)を変形すると、ak+1−ak=ak−ak−1=· · ·=a1−a0となるので、ak=k(a1−a0). ここで aN= 1,a0= 0を代入して、ak=Nk となることがわかります。
この場合は、10枚のチップを一度に賭けるのが一番よい戦略である。賭けを行う回数を増やすほど、N 枚に到達できる確率は減ってしまう。ちなみに、この例題の方法で900枚のチップを0枚になる前に1000 枚にまで増やせる確率を計算すると
(10
9
)900
−1 (10
9
)1000
−1 ; (10
9 )−100
= 0.0000265614...となる。
大数の法則の応用として、答えにくいことをアンケートで聞きだす方法を紹介します(cf. [2], [5])。
ここでは、高校生を相手におおよその喫煙率を知りたいとして述べます。
まず、調査員は、高校生たちにコインを1枚ずつ渡す。そして、コインを誰にも見えないように投げても らい、オモテかウラか出してもらう。そこで、こう質問します。
「コインでオモテが出た人と今週喫煙をした人は全員手を上げてください」
手を上げた人がコインのオモテが出たからか、喫煙したからかは本人以外誰にもわかりません。
もし、100人の高校生に聞いて、65人が手を上げたとします。この場合、大数の法則からコインのオモ テが出た高校生はおおよそ50人です。ですから、ウラが出た高校生で手を上げた人数は15人、すなわち、
50人中15人が今週喫煙したことがわかります。
もちろん、この調査法では正確な値はわかりませんし、小人数しかいないと予測されるような調査には 不向きです。ただ「おおよそ」を知りたい調査においては、これでも充分な傾向がわかるとみなせます。こ の調査人数を500人, 1000人と増やすと、調査の精度は著しくアップします。これも大数の法則のおかげ です。
次に期待値に関する話題として、クーポンコレクターの問題を考えましょう。
例題1.5 (クーポンコレクターの問題)おまけが6種類ある食玩をすべて集めたい。ただし、どの商品にど のおまけが入っているかは見分けられないようになっている。どのおまけも等確率で入っている場合、平均 して何個買えば全種類集まるか。
これはすぐには解けないので、まず次の例題を考えましょう。
例題1.6 勝つ確率がp(0< p <1)である賭けを勝つまで続ける。このとき、初めて勝つまでに行った賭 けの回数を表す確率変数をXとする。Xの期待値を求めよ。
解答: 賭けに負ける確率をq= 1−pとかく。
まず、1回目で勝つ場合は、確率はp,即ちP(X = 1) =pとなる。
2回目で初めて勝つ場合は1回目が負けで2回目が勝ちなので、P(X = 2) =qpとなる。
同様に、k回目で初めて勝つ場合はその前のk−1回はすべて負けなので、P(X =k) =qk−1pとなる。
また、kのとり得る値は自然数全体となる。よって、確率変数Xの確率分布は、次のようになる。
X 1 2 3 · · · · k · · · · 計 P p qp q2p · · · · qk−1p · · · · 1
(このXに対してX−1 (初めて勝つまでに負けた回数)の確率分布を幾何分布といいます。)
計が1となることは次のように無限等比級数の和の公式を用いてわかる。
p+pq+pq2+· · ·+pqk−1+· · ·=
∑∞ k=1
pqk−1= p 1−q =p
p = 1 したがって、期待値E(X)は
E(X) = 1×p+ 2×qp+ 3×q2p+· · ·+k×qk−1p+ (k+ 1)×qkp+· · ·
となる。この無限和を求めるため、次のことに注意する。rが0< r <1を満たすとすると、等比数列の和 の公式により
1 +r+r2+r3+· · ·+rN = 1−rN+1 1−r
となる。この両辺をrで微分すると
0 + 1 + 2r+ 3r2+· · ·+N rN−1= −(N+ 1)rN(1−r)−(−1)(1−rN+1)
(1−r)2 = 1−(N+ 1)rN+N rN+1 (1−r)2
ここで、 lim
N→∞N rN = 0となる7ことに注意すると、
1 + 2r+ 3r2+· · ·+N rN−1+· · ·= 1 (1−r)2 となる。ここで、r=qとし、両辺をp倍すれば、
E(X) =p+ 2qp+ 3q2p+· · ·+kqk−1p+· · ·= p
(1−q)2 =1 p
を得る。 ¤
例題1.5の解答: まず1個買えば最初の1種類目は手に入る。
2種類目が手に入る確率は 5
6 であるが、例題1.7を「(2種類目が手に入る)=(賭けに勝つ)」と解釈するこ とで、それを手に入れるまでの平均購入個数が 1
5 6
=6
5 となることがわかる。
同様に、3種類目が手に入る確率は4
6 であるから、手に入れるまでの平均購入個数が 1
4 6
=6
4 となる。
これを6個目まで繰り返すと、6種類全部を集めるには平均して 1 + 6
5 +6 4 +6
3+6 2+6
1 = 14.7 (個) 買うこととなる。 ¤
例題1.7 おまけがA, B, Cの3種類ある食玩をすべて集めたい。ただし、どの商品にどのおまけが入って
いるかは見分けられないようになっている。おまけA, B, Cが3 : 3 : 1の割合で入っているとき、平均して 何個買えば全種類集まるか。
解答: p=3 7,q= 1
7 とおく。2p+q= 1に注意する。まず1個買えば最初の1種類目は手に入る。
1つ目がAまたはBのとき、2種類目が手に入る確率は1−p=p+qであるから、例題1.7を用いて、手 に入れるまでの平均購入個数は 1
p+qとなる。1つ目がCのとき、2種類目が手に入る確率は1−q= 2pで あるから、手に入れるまでの平均購入個数は 1
2pとなる。
1つ目が2つ目がA. Bのとき、その確率は2p· p
p+qで、3種類目が手に入る確率は1−2p=qであるか ら、平均購入個数は1
q. 1つ目がAまたはBで2つ目がCのとき、その確率は2p· q
p+q, 1つ目がC2つ 目がAまたはBのとき、その確率は2q·1
2 で、これらの場合3種類目が手に入る確率は1−p−q=pで あるから、平均購入個数は1
pとなる。
以上を足し合わせ、3種類全部を集めるには平均して 1 + 2p· 1
p+q+q· 1
2p+ 2p· p p+q ·1
q+ (
2p· q
p+q+ 2q·1 2
)·1
p= 8 (個) となる。 ¤
7この証明は高校では扱わないが、二項定理を用いると次のようにできる。a= 1r とおく。a >1に注意し、二項定理を用いると aN= (1 +a−1)N= 1 +N(a−1) +N(N2−1)(a−1)2+· · ·>N(N2−1)(a−1)2. よって、0< N rN= N
aN <(N−1)(a−1)2 2 と なり、 lim
N→∞
2
(N−1)(a−1)2 = 0であるからはさみうちを用いれば示せる。
2 条件つき確率とベイズの定理
この節では条件つき確率を導入して、いろいろな例を計算してみます。特に、最近様々に応用されている ベイズの定理について考えましょう8。
まず、条件つき確率と確率の乗法定理を復習し、ベイズの定理を紹介します。
定義 2.1 事象A, Bについて、事象Aが起こったときの事象Bの起こる条件つき確率PA(B)を次で定義 する。9
PA(B) = P(A∩B) P(A) ただし、P(A)>0の場合のみに定義するものとする。
PA(·)は全事象をAに制限した確率とみなせる。また、PA(U) =PA(A) = 1 (Uは全事象),PA(∅) = 0で あり、事象B, Cが排反(B∩C=∅)なら
PA(B∪C) =PA(B) +PA(C) となる。また、次の乗法定理が成立する。証明は定義より明らかであろう。
定理2.2 (乗法定理) 2つの事象A, Bがともに起こる確率P(A∩B)は P(A∩B) =P(A)PA(B)
定理2.3 (ベイズの定理)AおよびC1, C2,· · ·, Cnは事象であり、全事象Uに対して C1∪C2∪ · · · ∪Cn=U Ci∩Cj =∅ (i̸=j)
を満たすとする。このとき、
PA(Ci) = P(Ci)PCi(A)
P(C1)PC1(A) +P(C2)PC2(A) +· · ·+P(Cn)PCn(A) (i= 1,2,· · · , n) (2.1) が成立する。特にBを事象とし、n= 2,C1=B,C2=B (Bの余事象) とすると次のようになる。
PA(B) = P(B)PB(A)
P(B)PB(A) +P(B)PB(A) (2.2)
証明: 乗法公式によりP(Ci)PCi(A) =P(Ci∩A). また、
P(C1)PC1(A) +P(C2)PC2(A) +· · ·+P(Cn)PCn(A) = P(C1∩A) +P(C2∩A) +· · ·+P(Cn∩A)
= P(A)
第2の等号は(Ci∩A)∩(Cj∩A) =∅(i̸=j)とC1∪C2∪ · · · ∪Cn =U を用いた。よって、これを(2.1) の右辺に代入することで主張を得る。 ¤
まず、数研出版 数学C p.105の応用例題を考えましょう。
例題 2.1 ある病原菌の検査試薬は、病原菌がいるのに誤って陰性と判断する確率が1%, 病原菌がいないの に誤って陽性と判断する確率が2%である。全体の1%がこの病原菌に感染している集団から1つの個体を 取り出す。この検査結果が陽性だったときに、実際には病原菌に感染していない確率を求めよ。
8コンピューターの分野においてはMozilla Thunderbirdは迷惑メールの判定にベイズの定理を使用している(wikipediaより)。
CNET JAPANの2003/3/10の記事に「グーグル、インテル、MSが注目するベイズ理論」がある。経済分野では[4]で、ゲームの 理論と関連させた興味深い結果を見ることができる。ベイズ推定を実際に活用するためには複雑な計算を伴う。このため、計算機の 発達もベイズ理論を利用ために必要であった(cf. [3])。
9通常はP(B|A)と表します。少なくとも私は高校教科書や参考書以外でPA(B)の記号は見たことがありません。この講義は、
中学高校の数学教員を対象として行うためPA(B)を用います。(ついP(B|A)のように板書してしまっても、PA(B)の意味と解釈 してください。)また、Aの余事象はAcを用い、AはAのclosure (Aを含む最小の閉集合)を表すことが通例です。
解答: 取り出した個体が感染しているという事象をA,検査結果は陽性であるという事象をEとする。この とき、与えられた条件を式にすると次のようになる。
PA(E) = 0.01, PA(E) = 0.02, P(A) = 0.01 求めるべきはPE(A)である。P(A) = 1−P(A) = 0.99より、
P(E) = P(A∩E) +P(A∩E) =P(A)PA(E) +P(A)PA(E)
= 0.01×(1−0.01) + 0.99×0.02 = 0.99×0.03
よって、PE(A) = P(A∩E)
P(E) =0.99×0.02 0.99×0.03 =2
3 ¤
問 2.1 ある製品を製造する2つの工場A,Bがあり、A工場の製品には3%, B工場の製品には4%の不良品 が含まれているとする。A工場の製品とB工場の製品を、4 : 5の割合で混ぜた大量の製品の中から1個を取 り出す。それが不良品であったときに、A工場の製品である確率を求めよ。(数研出版 数学C p.107より。) 問 2.2 ある工場では、機械 M1, M2, M3で全製品のそれぞれ 60%, 30%, 10%を製造していて、これらの 機械で生じる不良品の割合は2%, 3%, 6%である。いま、1個の不良品が見つかったとき、それが機械M3 で製造されたものである確率を求めよ。
例題2.2 (モンティ・ホールの問題) 3つの扉のうち1つだけに賞品が入っていて、回答者はそれを当てた ら賞品がもらえる。ただし扉は次のように2段階で選ぶことができる。
1. まず回答者は3つの扉からどれか1つを選ぶ、
2. 次に、答を知っている司会者が、選んでいない扉で賞品の入っていない扉1つを開けてみせる。ただ し、回答者が当たりの扉を選んでいる場合は、残りの扉からランダムに1つを選んで開けるとする。
このあと回答者は扉を1回選び直してもよい。
2で扉を換えるのと換えないのと、どちらが当る確率が高いか?
解答: 扉をA, B, Cとし、回答者が選んだ扉をAとし、司会者が選んで開けた扉がBだったとする。
A, B, CでそれぞれA, B, Cの扉に賞品があるという事象とする。A, B, Cに賞品がある確率は等しいと考 えられるので、P(A) =P(C) = 1
3 となる。
また、司会者がBの扉を開けるという事象をMとすると、
もしAに賞品があれば、司会者はB,Cのどちらを開けてもよいのでPA(M) = 1 2. もしCに賞品があれば、司会者はBしか開けられないのでPC(M) = 1.
よって、司会者がBの扉を開けたとき、賞品がCにある確率PM(C)はベイズの定理を用いて PM(C) = P(C)PC(M)
P(A)PA(M) +P(C)PC(M) =
1 3×1
1
3×12+13×1 = 2 3 となる。よって、扉を換えるほうが当る確率が高い。 ¤
問 2.3 例題2.2で扉がA, B, C, D, Eの5つの扉のうち1つだけに賞品が入っていている場合を考える。
回答者が選んだ扉をAであり、司会者が選んで開けた扉がBであったとする。このとき、賞品がCにある (事後)確率を計算せよ。ただし、司会者は回答者が選んでいない扉で賞品が入っていないものをランダム に1つを選んで開けるものとする。
例題2.2において、最初はCの扉に賞品がある確率がP(C) =1
3 ということから、司会者がBの扉を開 けるという新たな情報が加わったことにより、Cの扉に賞品がある確率はPM(C) = 2
3 となった。このよう
に試行を行う前の判断の確率P(C)を事前確率,試行を行った結果の条件の下での判断の確率PM(C)を事 後確率という。
ベイズの定理は事前確率から事後確率を導く公式と考えられる。しかし、現実の問題において、事前確率 をどのように設定するかはたいへん難しい問題である。また事前確率の概念そのものに設定者の主観が入 り込む余地がある(主観主義)としての批判もある。次のような例題を考えてみよう([7])。
例題2.3 A市で強盗殺人事件が起こり、X氏が容疑者として逮捕された。事件の犯人は血痕を残しており、
その血液型は1000人に1人という珍しいものであった。そこで、X氏の血液型を調べたところ犯人の血液 型と一致した。X氏は犯人であるか。ただし、A市の人口は100万人とする。
解答1: 「X氏が犯人である」という事象をA,「X氏の血液型が犯人の血液型と一致する」という事象を Eとする。このとき、X氏が犯人であれば血液型は犯人のものと一致するからPA(E) = 1. X氏が犯人で なければ血液型が一致するのは1000分の1と考えられるからPA(E) = 0.001. これとベイズの定理より
PE(A) = P(A)PA(E)
P(A)PA(E) +P(A)PA(E)= 1000P(A) 1000P(A) +P(A) となる。ここで事前確率をどう設定するかが問題となる。
[1] X氏は犯人か犯人でないかの2択なので犯人である確率は1
2と設定する。このとき、P(A) =P(A) =1 であるから、 2
PE(A) = 1000
1000 + 1;0.999 となる。すなわち、99.9%の確率でX氏が犯人である。
[2] X氏はA市の人間の1人でA市の人口は100万人もいるのだから、X氏が犯人である事前確率はせ いぜい10万分の1ではないか。すなわち、P(A) = 1
100,000 と設定する。このとき、
PE(A) = 0.01
0.01 + 0.99999 ;0.00990 となる。これではとてもX氏が犯人とはいえない。 ¤
これはいくらなんでも極端な話だが、事前確率の設定は大きく事後確率に影響を及ぼすことがわかる。
この問題は、[7]にあるようにベイズ理論に馴染まない問題であり、この著者が言うように次の解答2が 適切と思われる。10
解答2: X氏が犯人であるか否かは確定した事実であり、それに対して確率を考えることはできない。血液 型は1つの状況証拠を与えるがそれだけでX氏が犯人か否かについて何か述べることは出来ない。 ¤ このように主観主義の問題がありながら、ベイズの定理は社会で広く用いられている。[4]には次のよう に述べられている。
「ある人物が信頼できるかどうかを決定するには、どのようなプロセスを踏むのでしょうか。日常的に いえばこうでしょう。その人にまず適当な先入観を持ちます。次に、その人の普段の行動を観察し、嘘をつ いたか、誠実に対応しているか、データを収集します。そして、その経験によって先入観を修正していき ます。」
ベイズの定理を複数回用いて、最初の確率(先入観)から複数の情報により確率を変化させていくことは、
この行為に類似しています。このことを見るために、まず次の性質に注意します。
定理2.4 (逐次合理性)事象AおよびE, F に対して次が成立する。
(PE)F(A) =PE∩F(A)
10最近のDNA鑑定の技術は10億人に1人という精度で特定できるようになってきた。この精度であれば、解答1 [2]であっても 99.999%の確率でX氏が犯人となってしまう。
証明: (PE)F(A) = PE(A∩F) PE(F) =
P(A∩F∩E) P(E) P(F∩E)
P(E)
= P(A∩(E∩F))
P(E∩F) =PE∩F(A) ¤
この性質により、ベイズの定理で随時直近の情報だけから確率を修正を続けることと、過去の情報をすべ て見て修正することが同値だとわかります。では、[4]にしたがって次の例でどのように確率が変化するか 見ていきましょう。
例 2.4 あるコインがあり、それがオモテが出やすいという偽物の可能性がある。もし、本物であれば、オ モテとウラの出る確率は等しく0.5で、偽物であれば、オモテの出る確率は0.6,ウラの出る確率は0.4であ るとする。
以下、コインが本物であることをA,偽者であることをBと表し、k回目にコインを投げた結果がオモテで あるということをHk,ウラであるということをTkで表すこととする。このとき、PA(Hk) =PA(Tk) = 0.5, PB(Hk) = 0.6, PB(Tk) = 0.4 となる。
このコインは初めは本物か偽者かわからない。このため、事前確率はP(A) =P(B) = 0.5とする。
まず、コインを1回投げたところ、オモテが出たとする。このとき、ベイズの定理により事後確率は PH1(B) = P(B)PB(H1)
P(A)PA(H1) +P(B)PB(H1) = 0.5×0.6
0.5×0.5 + 0.5×0.6 = 6 11 となる。これを受け、事前確率をP(A) = 115, P(B) =116 に修正する。
コインをもう1回1度投げたところ、またオモテが出たとする。このとき、まず、新しく修正した確率 に対してもPA(H2) = 0.5,PB(H2) = 0.6となることに注意する。実際、逐次合理性より、
(PH1)A(H2) = PH1∩A(H2) = P(A∩H1∩H2)
P(A∩H1) = P(A)PA(H1∩H2) P(A)PA(H1)
= P(A)PA(H1)PA(H2)
P(A)PA(H1) =PA(H2) = 0.5
となる。2行目の最初の等号はコイン投げにおいて、1回目の結果と2回目の結果が独立であることを用い た。(PH1)B(H2) = 0.6も同様に従う。この結果を用い、ベイズの定理により事後確率は
PH2(B) = P(B)PB(H2)
P(A)PA(H2) +P(B)PB(H2) =
6 11×0.6
5
11×0.5 + 116 ×0.6 =36 61
となる。これを受け、さらに事前確率をP(A) = 2561, P(B) =3661 と修正し、3回目の試行を行っていく。
このように確率を変化させていく作業は、ちょうど我々が経験を重ねていくうちに徐々に認識が変わって いくのと類似しています。次に、回数を重ねていったらどうなるかを見てみましょう。
オモテ・オモテ・ウラ・オモテ· · · とn回の試行の結果、オモテがk回,ウラがn−k回出たとする。そ の事象をKnとすれば定理2.4の逐次合理性に注意して計算すると、事後確率は
PKn(B) = P(B)PB(Kn)
P(A)PA(Kn) +P(B)PB(Kn) = 0.6k0.4n−kP(B)
0.5nP(A) + 0.6k0.4n−kP(B)= P(B)
(56)k(54)n−kP(A) +P(B)
となる。もし、
(5 6
)nk(5 4
)1−nk
<1,すなわち、k
n > −log45
log65−log45 ;0.550338の割合を保つようにk, n→ ∞ と試行の回数を増やすと、PKn(B)→1となる11。
これは、事前確率がP(B)>0でさえあれば、試行を繰り返すうちに、偽者のコインであるという疑いが 限りなく大きくなることを意味している。このように、ベイズ推定でも、充分なデータのもとで推定を行え ば、真実を探り当てることが可能となる。
11厳密には、あるα > −log
4 5
log65−log45 があって、kn> αとすべき。
フィッシャーの統計的推測の方法(高校で学ぶ区間推定の理論もこの一部,頻度主義ともいう)では、ある 程度大きい標本数が必要でした12。ベイズ推定は少ない標本数でも、事前確率という先入観を出発点にして いるものの、当座の暫定的な数値として受け入れる分にはそれなりの判断基準を与えてくれます。さらに、
標本数が充分に大きければ正しい推定も行えます。また、ベイズ推定は操作性がよいので、多くのエンジニ アに受け入れられ、現実のテクノロジーに利用されています。
謝辞
新居浜高専の古城克哉先生と福岡教育大学の中田寿夫先生にお礼の言葉を述べたいと思います。古城先 生には2008年度新居浜高専市民講座「わかっているようでわかっていない確率のはなし」の原稿をいただ きました。このノートはそこから多くの題材を引用しています。また、中田先生には[7]にベイズの定理の 問題点が例示されていることを教えていただきました。
参考文献
[1] 服部 哲弥: 統計と確率の基礎,学術図書出版社, 2006.
[2] ダレル ハフ(高木秀玄 訳): 統計でウソをつく法,講談社ブルーバックス, 1968.
[3] 伊庭 幸人: ベイズ統計と統計物理,岩波講座 物理の世界, 2003.
[4] 小島寛之: 確率的発想法 数学を日常に活かす, NHKブックス, 2004.
[5] 小島寛之: 使える! 確率的思考,ちくま新書, 2005.
[6] 国沢 清典 編: 確率統計演習2 統計,培風館, 1966.
[7] 楠岡 成雄: 確率・統計,森北出版, 1995.
[8] 野崎 昭弘: 離散数学「数え上げ」理論,講談社ブルーバックス, 2008.
[9] 谷岡 一郎: 確率・統計であばくギャンブルのからくり,講談社ブルーバックス, 2001.
12精密法と呼ばれる小標本の理論もありますが、標本数が少ないため例題1.3の解答の脚注で見たように精度はかなり粗いものと なります。
問の解答
1.1 1·11 12· 10
12· 9 12· 8
12· 7 12 =385
123 ;0.2228 1.2 (1) 6
6 ·5 6 ·4
6 = 5
9 = 0.55555· · ·
(2) 1の目を含まないときと含むときと分けて考え、1の目を含むときは1の目が出る順番を考慮す
ると5·4 25 · 4·4
25 · 3·4
25 + 3×5·4 25 ·4·4
25 ·1
5 =1728
55 = 0.55296· · · ((1)より小さくなる!) 1.3 9試合やれば必ず勝負がつくことに注意し、例題1.3と同様の表を作れば、(1) 7
8 (2) 11
16 となる。
(1)
現在までの勝敗 7 8 9 勝者
(WWWWLL) → W W W A氏
→ W W L A氏
→ W L W A氏
→ W L L A氏
現在までの勝敗 7 8 9 勝者
(WWWWLL) → L W W A氏
→ L W L A氏
→ L L W A氏
→ L L L B氏
(2)
現在まで 6 7 8 9 勝者
(WWWLL) → W W W W A氏
→ W W W L A氏
→ W W L W A氏
→ W W L L A氏
→ W L W W A氏
→ W L W L A氏
→ W L L W A氏
→ W L L L B氏
現在まで 6 7 8 9 勝者
(WWWLL) → L W W W A氏
→ L W W L A氏
→ L W L W A氏
→ L W L L B氏
→ L L W W A氏
→ L L W L B氏
→ L L L W B氏
→ L L L L B氏 2.1 A, BでそれぞれAの工場, Bの工場の製品である事象とし、Fで不良品である事象とする。
仮定よりPA(F) = 0.03, PB(F) = 0.04, P(A) = 49,P(B) = 59 であり、求める確率はPF(A)である から、
PF(A) = P(A∩F)
P(F) = P(A)PA(F)
P(A)PA(F) +P(B)PB(F) = 4·3
4·3 + 5·4 = 3 8
2.2 A1, A2, A3でそれぞれ機械M1, M2, M3の製品である事象とし、Fで不良品である事象とする。
仮定よりP(A1) = 0.6,P(A2) = 0.3,P(A3) = 0.1,PA1(F) = 0.02,PA2(F) = 0.03, PA3(F) = 0.06 であり、求める確率はPF(A3)であるから、
PF(A3) = P(A3)PA3(F)
P(A1)PA1(F) +P(A2)PA2(F) +P(A3)PA3(F) = 1·6
6·2 + 3·3 + 1·6 = 2 9 2.3 A, B, C, D, EでそれぞれA, B, C, D, Eの扉に賞品があるという事象、司会者がBの扉を開けると
いう事象をM とする。このとき、P(A) = P(B) = P(C) = P(D) = P(E) = 1
5 で、もしAに賞 品があれば、司会者はB,C,D,Eのどれかをランダムに選んで開けるのでPA(M) = 1
4, もしCに賞 品があれば、司会者はB, D, Eのどれどれかをランダムに選んで開けるのでPC(M) = 1
3. 同様に、
PD(M) =PE(M) = 1
3. よって、
PM(C) = P(C)PC(M)
P(A)PA(M) +P(C)PC(M) +P(D)PD(M) +P(E)PE(M)= 4 15