• Tidak ada hasil yang ditemukan

PDF データの種類と基本的な変形 - Keio

N/A
N/A
Protected

Academic year: 2024

Membagikan "PDF データの種類と基本的な変形 - Keio"

Copied!
18
0
0

Teks penuh

(1)

経済統計分析 2

データの種類と基本的な変形

(2)

今日のおはなし.

 データの種類

測れるもの,測れないもの

離散データ,連続データ,属性(質的)データ

グラフを描こう

 基本的な変形

基準をそろえる

時系列に特有の変形

 今日のタネ

中村隆英ほか.

1984

.『統計入門』東大出版会,第

2

上田尚一.

2003

.『統計の誤用・活用』朝倉書店,

2

3

(3)

データの整理:一覧表にする

 観測値( observation )

 ( x 1 , y 1 , z 1 )

の組合せのこと

または,それぞれの

x 1 , y 1 , z 1

添え字をつけて各個体を区別

 データの大きさ・サイズ

観測値の数

n

 変数・変量

 ( X, Y, Z )

のような,量的な特性

 行と列

好み,統計処理ソフトによる

 MS-Excel

は縦長が得意

変数名/

個体番号

X Y Z

1 x 1 y 1 z 1

2 x 2 y 2 z 2

:

i x i y i z i

:

n x n y n z n

表現の約束

変数

X

に対して,それぞれの データを

x 1 , x 2 , …, x i …, x n

表す

時系列データの場合は,

x 1 , x 2 ,

…, x t …, x T

と書くことも
(4)

測れるもの,測れないもの

 統計処理の対象とするのは基本的に測れるもの

「目に見えないもの」「計測できないもの」は対象にできない

「計測できないもの」の代理変数(

proxy

)はよく使う

例:国の経済の開放度

=

輸出入額

/GDP

 計測可能でも数値にしにくいものは多い

統計(ソフトの)処理の都合上,数値を当てはめることも

コード番号をつける

例:属性(性別,職業,

),手段(交通手段,

),有無

例:傾向(支持する,やや支持する,どちらでもない,...)

数値の大小が意味を持つばあいもある
(5)

連続・離散・質的変数

 連続変数 continuous variable

変数のとりうる値が連続的なもの

数学的な意味での連続性ではないことが多い

整数値しかとらなくても,連続とみなすのが普通:計量データ

 離散変数 discrete variable

変数のとりうる値がとびとびなもの

個数を数えて得られるデータのことが多い:計数データ

 質的変数 qualitative variable

調査対象の質的な特性を調べたデータ

コード表にしたがって整数を当てはめて扱うことがおおい

整数の値そのものに意味はない

1-0

」で表現するとき,ダミー

dummy

変数と呼ぶ
(6)

基本的な表,グラフ:横断面 1 変数

 度数分布(頻度分布)表,ヒストグラム

質的変数のばあいは,各値を取る観測値の数をまとめたもの

連続変数のばあいは,ある区間(階級)の値を取る観測値の数

階級値:階級を代表する値.しばしば中位値

 相対度数

各階級の度数を全体の度数で割ったもの.

[0, 1]

の実数値.

「率」は相対度数の一種

 累積度数

低い階級から度数を順に足して得られる度数

累積度数の差をとると度数が得られる

 累積相対度数

累積度数を全体の度数で割ったもの.

[0, 1]

の単調増加
(7)

基本的な表:横断面 1 変数

階級 階級値 度数 相対度

累積度数 累積 相対度数

a 1 ~ b 1 m 1 f 1 f 1 / n F 1 =f 1 F 1 / F n a 2 ~ b 2 m 2 f 2 f 2 / n F 2 = F 1 + f 2 F 2 / F n

: : : : : :

a j ~ b j m j f j f j / n F i = F i-1 + f i F i / F n

: : : : : :

a k ~ b k m k f k f k / n F k = F k-1 + f k F k / F n = 1

n 1 F n = F k

度数分布/ヒストグラムの作り方

階級の区間を等間隔にとるほうが望ましい

階級の境界か,階級値がきりのいい数値になるように

階級の個数はデータのサイズと要相談

グラフ作成時にはオープンエンドや階級幅を反映させる
(8)

基本的な表,グラフ:横断面 2 変数 ( 以上 )

 度数分布表(クロス表)

制御したい変数

X

の階級ごとの検討したい変数

Y

の度数分布

例:男女別の賃金分布,年齢階級別の賃金分布

 3

変数以上のばあいは,変数を組み合わせて変数

X

を作る

例:男女

-

年齢階級別の賃金分布:男性

20

歳代,女性

20

歳代,男性

30

歳代

….

ヒストグラム:グラフを

2

つ描いて並べるか,棒を並べて描く

 散布図 scatter plot

 ( x i , y i )

X-Y

平面上に打点したもの

 3

変数のばあいは,グラフを

2

つ描いて並べるか,変数ごとに マークを変える
(9)

基本的な表,グラフ:横断面 2 変数 ( 以上 )

例:本態性(原発性)高血圧(症)(2005年,千人)

(千人)

20

30

40

50

60

70

80

90

以上

3 34 167 597 958 957 339 39

1 20 128 676 1206 1569 882 161

0 200 400 600 800 1000 1200 1400 1600 1800

(10)

基本的な表,グラフ:時系列

 一覧表

一定の期間での平均値をとることも

 グラフ

横軸に時間軸をとって折れ線グラフ

0 1000 2000 3000 4000 5000

1984 1987 1990 1993 1996 1999 2002 2005 男

(11)

基本的な変形

 基準化

観測値間の比較を行うため,「本質的」ではなくて明らかな変 数の影響を除去するためになんらかの基準化を行う

基準化した変数同士の散布図によって関係性をみよう

 よくある基準

人口一人当たり

面積あたり:人口密度は代表例

経済規模あたり:対

GDP

比,対税収比

 どの基準を使うのがよいか,は状況に依存するが

その基準化が意味を持つか

?

検討の対象となっている変数と,基準化に使おうとしている変 数の散布図を描くと,直線状になっているか

?

(12)

基本的な変形:横断面

 「地域」の定義に注意

どのようにそのデータが作られたのか

越境の可能性は

?

分析の目的に即しているか

?

昼間人口と夜間人口,本社所在地など

合併や統合が起きていないか

?

0 500000 1000000 1500000 2000000 2500000 3000000 3500000

0 2000000 4000000 6000000 8000000 10000000

輸出入の和とGDP

(13)

基本的な変形:時系列

 変化率

時系列のデータはしばしばトレンドや季節性をもつ

それらが共通の要因として重要でないときには変形が必要

 いくつかの変化率

成長率

= x t / x t-1 - 1

(四半期の場合)前年同期比

= x t / x t-4 - 1

(月次の場合)前年同月比

= x t / x t-12 – 1

 リードとラグ

 寄与度分解

(14)

基本的な変形:季節性(家計消費)

-10 -8 -6 -4 -2 0 2 4 6 8 10

0 50000 100000 150000 200000 250000 300000 350000 400000 450000 500000

1月 5月 9月 1月 5月 9月 1月 5月 9月 1月 5月 9月 1月 5月 9月 1月 5月 9月 1月 5月 9月 1月 5月 9月 1月 5月 9月 1月

2000年 2001年 2002年 2003年 2004年 2005年 2006年 2007年 2008年2009年 消費支出

前年同月比

(15)

寄与度分解

(内閣府「今週の指標」

887

2008

7

22

日)
(16)

基本的な変形:時系列

 指数

時系列などのデータを加工して,比較しやすくしたもの

いくつかの系列の動きをまとめて示すために計算される

 簡単な指数

「ある時点を

100

として」:出発点が異なるものの比較

= x t / x 1

例:株式市場間の動きの比較などの地域間指数

 複雑な指数

例:物価指数,鉱工業生産指数

作成者が定義してしまう指数:株価指数など

質的変数を変形した指数:日銀

DI

など

 変化率を見たいのか,水準を見たいのかに注意.

定義を調べて,適切な指数を選ぼう.
(17)

指数と変化率

 何がわかるか ? /何を言いたいのか ?

0 50 100 150 200 250 300 350 400

1 2 3 4

A B

0.00 0.02 0.04 0.06 0.08 0.10 0.12

1 2 3 4

A B

0.60 0.70 0.80 0.90 1.00 1.10 1.20 1.30

1 2 3 4

A B

0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 1.05

1 2 3 4

A B

(18)

時系列の注意点:ストックとフロー

 ストックとフロー

ストック:ある時点での量を示す(年度末時点など)

フロー:ある期間内での量を示す(年度など)

フローの積み重ねがストックになる

例:政府の借り入れ:公債残高はストック,公債収入はフロー

 区別する方法

もとの資料に当たって,変数の定義を調べる

ストックなら「~時点」,フローなら「~中」とあるはず

 ストックとフローの散布図も有用なことも

発生率

=

ある期間の発生率/期首時点での数

分母が何かに注意

 ストック/フロー で,平均時間を求めることもある

Referensi

Dokumen terkait

【令和2年度 日本保険学会全国大会】 共通論題「Maasの推進と法」 報告要旨:松原 仁 1 MaaS の推進とデータ利用基盤サービス 東京大学/公立はこだて未来大学/未来シェア 松原 仁 1. AI便乗サービスSAVS 全国の公共交通が疲弊している。路線バスは乗る人が少ないので路線が減ったり便数が

どの機能的役割を果たしている1〜9. クマやアザラシ,ミンクなどの一部の例外を除き多く の有胎盤類(胎盤をもち,妊娠期間が長くて胎盤の中で 仔を育てる哺乳類)の乳では主要な糖質はラクトースで あるが,有胎盤類とは異なる固有の進化をたどった単孔 類や有袋類では,乳の中のラクトースの量は少なく,ミ ルクオリゴ糖の方が圧倒的に多い1〜4, 7, 8.またミルク

熊本大学 数理科学総合教育センター 行列の基本変形と階段行列 演習問題2 解答例 問題 1... 熊本大学 数理科学総合教育センター 補足 2つの定理を復習しておく. 定理

[r]

① 生産力の向上⇒資本の有機的構成C/V ⇒一定量の投下資本で充用される労働者数の =失業者の 作用⇒相対的過剰人口の発生 ② 資本蓄積⇒投下資本量の ⇒雇用労働者数の 作用 =労働力の 作用=失業者の 作用 ①と②両者の作用と相対的過剰人口の発生 資本蓄積の進展過程=生産力向上と資本蓄積の 促進的進展過程