• Tidak ada hasil yang ditemukan

統計

N/A
N/A
Protected

Academic year: 2024

Membagikan "統計"

Copied!
7
0
0

Teks penuh

(1)

1.2 量的データの集計 【動画】

1.2.1 量的データの集計

量的なデータの集計では、まずデータの分布を見ることが大切です。どの範囲にどれだ けの数のデータがあるのかを示すのが度数分布表です。度数分布表の階級がデータを分類 する範囲で、度数がどれだけのデータがその範囲に入っているかを表します。相対度数は、

その度数の全体から見た割合です。また、それに加えて累積度数と累積相対度数を加える 場合もあります。累積度数はその階級以前の度数の合計、累積相対度数はその全体から見 た割合です。

表1.2.1 度数分布表

階級 度数 相対度数

(%) 累積度数 累積相対 度数(%)

50 <= x < 60 4 20 4 20

60 <= x < 70 8 40 12 60

70 <= x < 80 5 25 17 85

80 <= x < 90 3 15 20 100

計 20 100

度数分布表の度数の部分を棒グラフのように表示したグラフをヒストグラムといいます。

階級が等間隔の場合、ヒストグラムは高さが度数になっています。

0 1 2 3 4 5 6 7 8 9

50 60 70 80 90

図1.2.1 ヒストグラム

ヒストグラムが富士山型に近い形をしている場合、データの分布は正規分布であるといい ます。正規分布についての詳しい話は、基礎からの統計学7章を参照して下さい。

特に後に述べる検定などを利用する場合、正規分布かどうかは非常に大切です。

度数分布やヒストグラムはデータの特徴を最も良く表すものですが、人に一言で情報を 伝えたい場合には不便です。そのために我々は統計量と呼ばれる分布の特徴を要約した数 値を使います。分布の特徴としては中心がどこなのか、広がりはどの程度かといったこと が重要になります。正確には分布の中心を表す統計量のことを基本統計量と呼ぶようです が、ここでは他の統計ソフトなどと同様、総称して基本統計量と呼ぶことにします。まず 分布の中心を与える統計量について説明します。今簡単のため、「3,3,4,2,8」というデータ

(2)

を考えてみます。

分布の中心を表す統計量

よく知られている分布の中心を表す統計量は平均値です。平均値はデータの合計をその 個数で割ったものです。実際に上のデータについて求めてみましょう。

平均値

( 3 3 4 2 8 ) 4 5

1

+ + + + =

=

次に検定と呼ばれる処理でよく使われる分布の中心を表す統計量は中央値です。中央値は メジアンとも呼ばれ、文字どおりデータを小さい順に並べて真ん中の値です。このデータ の場合は以下のようになります。

中央値 = 3 2, 3, 3, 4, 8のとき

またデータが偶数の場合は真ん中の2つのデータの平均になります。

中央値 = (3+4)/2=3.5 2, 3, 3, 4, 6, 8のとき

分布の拡がりを表わす統計量

次は分布の拡がりを表す統計量についてです。最も簡単な指標はレンジ(範囲)と呼ば れる指標です。これはデータの最大値から最小値を引いたものです。

レンジ = 8 – 2 = 6

しかしこの指標には欠点があります。例えば極端に大きなデータが 1 つあった場合、その データの影響でレンジが極端に大きくなってしまいます。この欠点を取り除いたものが分 散です。分散には通常の分散と不偏分散と呼ばれる量があります。分散は各データの平均 値からのずれの2乗をデータ数で割ったもので、データを使って以下で与えられます。

分散

( 2 4 ) ( 3 4 ) ( 3 4 ) ( 4 4 ) ( 8 4 )4 . 4

5

1

2 + − 2 + − 2 + − 2 + − 2 =

=

不偏分散は各データの平均値からのずれの2乗を(データ数-1)で割ったもので、分散よ り大きな値になります。

不偏分散

( 2 4 ) ( 3 4 ) ( 3 4 ) ( 4 4 ) ( 8 4 )5 . 5

4

1

2 + − 2 + − 2 + − 2 + − 2 =

=

通常Excelの関数で与えられるvar(範囲) は不偏分散を表しており、アンケート調査の結

果などで用いられるのは不偏分散の方です。2つの分散の違いは標本調査のところで話をし ます。これらの分散では大きなずれは平均化されるのでレンジのときのような影響はあり ません。

これで問題解決と行きたいところですが、これらの分散にも問題があります。それは分 散の定義にずれの 2 乗を使っているため、データの単位と異なることです。即ち例えばデ ータの単位がcmならば、分散の単位はcm2 になってしまい、拡がりを横軸上に表示できま せん。これを訂正するためには分散の平方根を取って単位を元に戻す方法が考えられます。

このようにしてできたのが標準偏差で、通常の分散から求められるものと不偏分散から求

(3)

められるものの 2 種類があります。名前に区別がありませんので、注意する必要がありま す。

標準偏差

= 分散 = 2 . 098

標準偏差

= 不偏分散 = 2 . 345

以下のデータ(Samples¥テキスト1.txt)を用いて次の問いに答え、結果は文書にまとめよ。

学校 身長(cm) 体重(kg) 学校 身長(cm) 体重(kg)

2 169 71 1 170 62

1 175 68 1 182 75

2 170 67 2 177 70

1 179 72 1 175 70

1 176 69 1 172 62

2 174 81 2 166 58

2 173 75 2 168 60

1 181 65 2 173 58

1 179 74 2 169 59

2 178 71 2 170 73

この例題では身長と体重が量的データで、学校が2つのデータを分類する質的データで す。まず、エディターの[ファイル-開く]メニューで、表示されるファイルから、テキ

スト1.txtを選びます。サンプルはCollege Analysisの本体CAnalysis.exeのあるフォルダーの

下のSamplesフォルダーに保存してあります。

ファイルを選択すると、質的データの集計でみた画面になります。この画面の右下の「1/2」

の表示から、このファイルは2 ページからなり、今 1 ページ目を表示していることが分か ります。今回使うデータは2 ページ目にあるので、ツールバーにある マークをクリック すると以下のデータが現れます。

図1.2.2 ファイル読込画面

ページ切り替えには 、 、 、 の記号を使いますが、左から、先頭のページへ、

前のページへ、次のページへ、最後のページへという意味です。

それでは、問題に答えて行きましょう。

(4)

1)身長についての基本統計量を求めよ。

まずメニュー[分析-基本統計-量的データの集計]を選び、以下のような量的データ の集計実行画面を表示します。

図1.2.3 量的データの集計実行画面

「変数選択」ボタンで身長を選択します。その後「基本統計量」ボタンをクリックすると 以下の結果が表示されます。

図1.2.4 基本統計量表示画面

標準偏差については分散の下と不偏分散の下にありますが、これらはそれぞれ上の分散と 不偏分散の平方根を取ったもので、どちらでもよいのですが、我々は下側の不偏分散と標 準偏差を使うことにします。

2)体重についての基本統計量を求めよ。

今度は「変数選択」で体重を選択し、「基本統計量」ボタンをクリックすると以下の結果が 出力されます。

(5)

図1.2.5 体重の基本統計量出力画面 3)身長について5cm毎の度数分布表を描け。

「変数選択」で身長を選び、度数分布のグループボックス内の「読込」ボタンで左のコン ボボックスに身長を表示させ(1変数を選択した場合は省略可)、「度数分布表」ボタンをク リックします。

図1.2.6 身長の度数分布表表示画面

ここで今回は何の設定もなくうまく表示されましたが、初期値や分割幅(階級の幅)、場合 によっては終了値(省略可です)を入力してから「度数分布表」をクリックすると好みの 分割が作れます。

4)身長について5cm毎のヒストグラムを描け。

上の状態で「ヒストグラム」ボタンをクリックすると以下のようなヒストグラムが描け

(6)

ます。

図1.2.7 身長のヒストグラム表示画面

グラフの縦横を伸ばしたり縮めたりするとそれに合わせてグラフが変化します。その際文 字の大きさは一定ですので、文字が重なるようなら、横に伸ばして拡げることもできます。

5)体重について10kg毎のヒストグラムを描け。

これも同様に「変数選択」ボタンで体重を選び、「読込」ボタンで左のコンボボックスに体 重を表示し、「ヒストグラム」ボタンをクリックします。

図1.2.8 体重のヒストグラム表示画面

6)学校別に身長についての基本統計量を求めよ。

これは身長を分類しながら集計する問題です。まず「変数選択」で学校と身長を 2 つ選び ます。ここで重要なのは分類する方の変数を先に選ぶことです。次にメニュー左上のラジ

(7)

オボタンで「先頭列で群分け」を選びます。これは最初に選んだ変数を群分けに利用せよ という意味です。その後「基本統計量」をクリックすると以下のように分類された結果が 表示されます。

図1.2.9 学校別に群分けされた身長の基本統計量

7)学校1について、身長のヒストグラムを描け。

これも「変数選択」で学校と身長、ラジオボックスは「先頭列で群分け」とします。「度 数分布」グループボックス内の「読込」をクリックすると左のコンボボックスには「学校:1- 身長」、「学校:2-身長」、「すべて」が設定され、先頭の要素が表示されます。このコンボボ ックスで表示したいものを選んで、「ヒストグラム」ボタンをクリックすると以下のような ヒストグラムになります。

図1.2.10 学校1の身長のヒストグラム

Referensi

Dokumen terkait

統計学実習用紙 10(両面1枚) 認識記号番号= 一見データとして取り扱いにくい視聴覚情報について、どうデータ処理をすべきかを考えながら、データを獲る 体験をします。クラウドの Excel「10日目」シートに、以下のデータを記入して下さい。本名や学籍番号は絶対 に記さない様にして下さい。緑字で、入力すべき欄の列を示します。

3.2ch.net と Amazon.co.jp. Stochastic ranking process は 2ch.net のスレッド一 覧の時間変化やAmazon.co.jp の本のランキングの時間変化の数学モデルと見ることがで きる.モデルとするにはjump rateの分布λを決める必要があるが,社会学や経済学では

yr−1 yr     と表せる。このような未知関数の 1 次斉次式を連立したものを線形常微分方程式系とい い、多変数化を線形偏微分方程式系という。 さて、微分方程式を解く場合どのような範囲の関数の中で解を探すかということが問 題になる。例えば、Cs 級関数の範囲、実解析関数、超関数と呼ばれるものまで拡大して

解析を加えて行く英文のファイルをデータファイル、単語辞書に相当するものを辞書ファイル、 辞書を用いて得た品詞を選別するためのデータが採用ルールファイルと棄却ルールファイルで、 前者は慣用句などを元にした品詞の並びを集めたもの、後者は品詞の並びの可能性のないもの を集めたものである。それぞれの書式については後に説明する。

位相関係数があります。これは2つの変数の大きさの順位を用いた相関係数です。我々は これらの2つの相関係数を使って、相関の有無を調べることにします。 6.1 (Pearsonの)相関係数 ここでは Pearsonの相関係数が、統計的に0 と異なるかという検定を紹介します。但し、 2つのデータが2変量正規分布に従う場合にこの検定は有効です。2変量正規分布の検定に

統計 第4回 4-1 2章 確率分布と検定 2.1 確率密度関数 量的データの集計方法としてヒストグラムを描くということを前章で学びましたが、こ こではデータの数を十分大きくしていった場合のヒストグラムの形を考えます。図のよう にデータ数を多く取って行くと、ヒストグラムはきめが細かくなり、ヒストグラムの上端

6章 相関係数の検定と回帰分析 この章では2つの量的なデータの関係を調べる検定手法を学びます。2つの量的な データを表示するには散布図がよく用いられ、描画された点の散らばり方によって、 相関係数が計算されました。この相関係数はピアソン(Pearson)の相関係数と呼ばれ、 2つのデータの間の線形の(散布図では直線的な)関係を調べるものでした。しかし、

5.6 対応がある検定手順 【動画】 2群間に対応がある場合は、一方の群のデータに対して、他方の群に必ず対応データがあ ります。検定方法の決定には、この対応するデータ間の差の正規性を調べます。正規性が ある場合は、量的データの検定メニューの四角形の中のように、対応がある場合の t検定、 正規性がない場合はWilcoxonの符号付き順位和検定を利用します。