• Tidak ada hasil yang ditemukan

2章 確率分布と検定

N/A
N/A
Protected

Academic year: 2024

Membagikan "2章 確率分布と検定"

Copied!
4
0
0

Teks penuh

(1)

統計 第4回

4-1

2章 確率分布と検定

2.1 確率密度関数

量的データの集計方法としてヒストグラムを描くということを前章で学びましたが、こ こではデータの数を十分大きくしていった場合のヒストグラムの形を考えます。図のよう にデータ数を多く取って行くと、ヒストグラムはきめが細かくなり、ヒストグラムの上端 を繋いだグラフは次第に滑らかになって行き、ある形に近づいて行きます。この形を変数 の確率密度関数または単に密度関数と呼びます。但し、縦軸の度数はこの関数が囲む面積 が1になるような数値に書き換えています。

S = 1

(確率)密度関数

図2.1.1 ヒストグラムの極限と密度関数

例えばテストの点数を考える場合、以下の図のような位置に40点と60点があるとしまし ょう。確率密度関数のその間にある領域の面積を

S

とすると、

S

40点から 60点の間に いる人の割合になります。

S

40 60 X

図2.1.2 面積と確率

もう少し言い換えるとこの集団の中から一人選ぶとすると、40点から60点の間の人を選ぶ 確率は

S

になります。もちろん割合または確率ですので、この面積は0 以上1以下です。

またこれを0 点から 100 点までとしますと、全員その中に入りますので、割合または確率 は1 になります。確率密度関数が囲む全面積が 1 になるように縦軸を書き換えていると言 った理由は全確率が1になるように設定するためです。

よく「ある変数の分布は?」という言い方をしますが、これはこの確率密度関数がどん な形かということです。以後代表的な分布について見て行きましょう。

2.2 正規分布と標準正規分布

統計学の基本的な分布は正規分布(normal distribution)と呼ばれる分布です。これはデー タの測定誤差などランダムな現象から生じる分布です。また、正規分布以外の分布からで

(2)

統計 第4回

4-2

も、ある程度大きな数(値ではない)のデータの平均値は正規分布することが知られてい ます。これは中心極限定理と言って統計学では大変重要な定理です。この節ではこの正規 分布について見て行きましょう。

正規分布は平均と分散で確率密度関数の形が完全に決まる分布です。ある量X が平均

(ミュー)、分散

2(シグマ)の正規分布をしていることをX

N (  , 

2

)

と表します。

正規分布していることを正規分布に従う、とも言います。この正規分布の確率密度関数は 以下のようにきれいな富士山形をしています。

0.2 0.4

f x( )

x +

- +2 +3

-3 -2



図2.2.1

N (  , 

2

)

の確率密度関数

正規分布には平均と標準偏差の値がどのように変わってもこの形を維持するという面白 い性質があります。すなわち平均と分散の値に関わらず以下の性質があることが示されて います。

683 . 0 ) (

X

+

=

P 両側 32%

954 . 0 ) 2 2

(

X

+

=

P 両側 5%

997 . 0 ) 3 3

(

X

+

=

P 両側 0.3%

ここにP

(

a

X

b

)

は変数X

a

から

b

の値を取る確率を表します。例えば、ある試験の 結果が、平均65点、標準偏差8点の正規分布をする場合、一番上の式を利用すると、57(=65-8)

点から73(=65+8)点までの間に約68%の人がいることになります。この値は非常に重要で、

特に両側確率の32%, 5%, 0.3%という概数は統計を学ぶ際にはぜひ覚えておくべきでしょう。

正規分布の中で特に重要なものがあります。それは平均0、分散1の正規分布です。この 分布の確率密度関数は以下の図のような形をしており、計算機が発達する前から細かい範 囲で確率を与える表が作られていました。

(3)

統計 第4回

4-3

図2.2.2 標準正規分布の確率密度関数

しかし、実際の分布が都合よく標準正規分布になるということはまずないのに、なぜ詳 しく調べられたのでしょうか。それは正規分布に以下の性質があるからです。

X N

(  , 2) ならば、

= −

X

X N

( 0 , 1 )

これだけでは何のことか分からないと思いますので、前に使った試験の点数の分布

) 8 , 65

(

2

N

を例に上の式の意味を考えてみます。例えばこの試験で70点以上の人の確率(割 合)P

(

X

 70 )

を計算しようとしても、当然一般の正規分布では細かな確率は与えられて いませんのでそのままでは不可能です。そこで上の式を利用して、変数X X

に変換し ます。この場合

 = 65、 = 8ですから、変換の式は以下のようになります。

8

− 65

 =

X

X N

( 0 , 1 )

この式を使って

X  70

X

の関係に直すと

625 . 8 0

65 70 8

65 − =

− 

 =

X X

625 .

 0

X 

となります。このX

は標準正規分布に従うので、細かい確率も計算できます。

すなわち結果は以下のようになります。

2660 . 0 ) 625 . 0 ( ) 70

(

X

 =

P X

  =

P

このようにして標準正規分布の確率を詳しく求めるということは、一般の正規分布の確 率を詳しく求めると同じであることが分かりました。

一般の分布の場合、上の変換は単に平均を 0 にして分散を1 にする変換で、正規分布の ときだけ変換後も正規分布であり続けるところが大きな特徴です。このようにして変数X を変数X

に変換することを標準化と呼び、後で学ぶ多変量解析ではよく利用されます。

正規分布の性質は他にもいろいろありますが、興味のある人は「基礎からの統計学」を 参照して下さい。

(4)

統計 第4回

4-4 問題(1個のデータについて)

体重の平均20kg、標準偏差2kg(分散4kg2)の子供1000人の集団がある。データは正規 分布するとして以下の問いに概数(大体の値)で答えよ。

1)22kgの子供は重い方から大体何%か [ ]%

2)24kgの子供は重い方から大体何%か [ ]%

3)24kgの子供は重い方から大体何番目か [ ]番目 4)18kgの子供は重い方から大体何%か [ ]%

5)18kgの子供は重い方から大体何番目か [ ]番目

問題(1個のデータについて)

前の問題で、子供の体重から平均の20kgを引き、その結果を標準偏差の2kgで割るとす る。以下の問いに答えよ。

1)20kgの子供の値はいくらになるか [ ] 2)22kgの子供の値はいくらになるか [ ] 3)17kgの子供の値はいくらになるか [ ]

4)この計算結果は平均[ ]、分散[ ]の正規分布になる。

5)3)について、17kg以下となる正確な確率を求めよ。

Excelの関数normsdist(x)を用いると [ ] 6)2)について、22kg以上となる正確な確率を求めよ。

Excelの関数normsdist(x)を用いると [ ] 7)17kg以上、22kg以下となる正確な確率を工夫して求めよ。

Excelの関数normsdist(x)を用いると [ ]

解答(1個のデータについて)

1)22kgの子供は重い方から大体何%か [16]%

2)24kgの子供は重い方から大体何%か [2.5]%

3)24kgの子供は重い方から大体何番目か [25]番目 4)18kgの子供は重い方から大体何%か [84]%

5)18kgの子供は重い方から大体何番目か [840]番目 解答(1個のデータについて)

1)20kgの子供の値はいくらになるか [0]

2)22kgの子供の値はいくらになるか [1]

3)17kgの子供の値はいくらになるか [-1.5]

4)この計算結果は平均[0]、分散[1]の正規分布になる。

5)3)について、17kg以下となる正確な確率を求めよ。

=normsdist(-1.5) [0.066807]

6)2)について、22kg以上となる正確な確率を求めよ。

=1-normsdist(1) [0.158655]

7)17kg以上、22kg以下となる正確な確率を工夫して求めよ。

=normsdist(1)-normsdist(-1.5) [0.774538]

Referensi

Dokumen terkait

かを確認してきた。次に、第二章の古代日本語における「アヲ」では、辞典の解説部分にあった古代日本語における「アヲ」について、佐竹昭広氏の説を中心に、また、それに関連して、「お」と「を」の合流について考えてきた。最後に、第三章では現代日本語の「青」について、現代日本語の「青」の特徴があるのか、ということについて考えてきた。 今後の課題とし、小論を締めくくることとする。

5.1 データの種類 分析しようとしている対象であるデータには、様々な種類のものがあります。このようなデータ を数値として分析しようとするとき、これに当てはめるモノサシのことを尺度といいます。 例えば、データは次のようなものである可能性があります。 • 英語の小テストの得点 • 好きな曜日 • 郵便番号 • A市とB市の合併に対する賛否 • 長さ •

5.1 データの種類 分析しようとしている対象であるデータには、様々な種類のものがあります。このようなデータ を数値として分析しようとするとき、これに当てはめるモノサシのことを尺度といいます。 例えば、データは次のようなものである可能性があります。 • 英語の小テストの得点 • 好きな曜日 • 郵便番号 • A市とB市の合併に対する賛否 • 長さ •

第1章 第2章 第3章 第4章 第5章 第6章 第7章 第8章 第9章 第10章 第11章 第12章 第13章 第14章 第15章 基礎データ 第14章 めの報告書としてまとめ、学長に提出する。新しいシステムを導入した 2006 年度には、自己

2 単元2 電気の世界 1章 静電気と電流 教科書p.60~67 ●要点と重要用語の整理··· □➊静電気…異なる2種類の物質をこすり合わせたときに は,発生した電気が物体にたまる。物体にたまった電気 を( ア )という。 □➋静電気力…電気を帯びた物体どうしの間にはたらく力 は,はなれていてもはたらく力であり,( イ )と いう。

はじめに コンクリート部材の中の強度は、一般的に上部が 小さく、下部が大きいとされている。理由として、 上部は密度の小さい水が上昇して水セメント比が大 きくなり、下部には骨材が沈降することが考えられ る。また、締固め時に再振動を行った場合には、骨 材下面にブリーディングによって生じる空隙や空気 泡の減少によっても強度が増加すると考えられる。

一方、原始関数も、 定数だけ違ってもやはり原始関数 (微分したら同じ)なので、 普通は定数の差を気にしない 微分積分学の基本定理 f:連続のとき、 不定積分 ≡ 原始関数 −→ 原始関数(逆微分)を知れば積分が計算できる −→ 計算は今までに馴染みの 諸公式・手法によれば良い... 一方、原始関数も、 定数だけ違ってもやはり原始関数

1 中央値と Wilcoxon 順位和検定について Wilcoxon 順位和検定は中央値の比較検定と解釈されることが多いが、実際のところ何を 比較しているのだろうか。データを元に調べてみる。 この問題で私が最初に不思議に感じたのは以下の事例です。あるデータとその基本統計 量を求めた結果を図1に示します。 図1 データと中央値