1
College Analysis 総合マニュアル
- 入門ガイド -
2
1.実行の流れ
総合マニュアルの本題に入る前に、分析ソフトCollege Analysis(以後C.Analysisと略す)
の利用法を簡単にまとめておく。利用するデータは、Samples.zipの中にあるCAnalysis入門 用データ.xlsxとCAnalysis入門用データ.txtである。
C.Analysisの画面構成では、入力用として、グリッドエディタ、テキストエディタ、グラ
フィックエディタがある。グリッドエディタは表形式の入力で、これが最もよく用いられる。
ここではこの入力方法だけを解説する。次に、出力には、グリッド出力、テキスト出力、グ ラフ出力、3D出力がある。表形式のグリッド出力のデータは、グリッドエディタに貼り付 けて、簡単に結果をデータとして再利用することができる。画面の上に表示されるメニュー は、現在選択されているウィンドウに関するもので、選択されているウィンドウによって変 化する。
ここでは卒論指導などを念頭に、個々の分析以外で、C.Analysisにどのような機能がある のかその概略を解説する。特に3章では、一般にはあまり説明しない、卒論指導に便利な機 能についてまとめておく。
1.1 Excelでのデータ入力
卒論でのアンケート処理などでは、最初にExcelに入力することが一般的であろう。最近 のデータサイエンスでは、ビッグデータを扱うということが特徴になっているが、我々が想 定するデータはExcelで余力を持って処理できる程度のデータである。レコード数でいうと 1万行程度以下と思ってもらいたい。
C.Analysisで分析することを前提にしたExcel入力では、図1のようにデータの1行目に
変数名(または列名)、1列目にレコード名(または行名)を付ける。
図1 Excel入力(CAnalysis入門用データ.xlsx)
レコード名については、アンケートの個体識別番号にすることが望ましい。また、変数名に
3
ついてはあまり長い名前にしない方が、後で見やすい結果となる。アンケートのデータでな い場合、レコード名を省略することもできるが、レコード名の部分を1列空けておくことが 望ましい。データが与えられていない欠損値の場合、文字や数字を入力せず空欄にしておく。
数字の場合は半角でデータを入力する。分類データの場合は、入力しやすい値(例えば1,2 など)を用いる。
複数回答問題の場合、図2の網掛けの部分のように、回答を複数列に分け、選択している ところには1、選択していないところには0を入力すると分析しやすくなる。
図2 複数回答問題の入力
官庁データなどを用いる場合、変数名が2行に分かれていたり、複数セルがまとまっていた りしてデータの形式がまちまちなので、書式を全部取り去って、変数名1行、レコード名1 列に加工する。
1.2 Excelからのデータのコピー
Excel で変数名(1 行)とレコード名(1 列)を含めてすべてのデータを選択しコピーす
る。C.Analysisを動かし、グリッドエディタのメニュー(以後単にメニューとする)[編集-
全貼り付け]を選択すると図3のように貼り付く。
図3 Excelからの貼り付け
4
ここで、左端がレコード名で、上端が変数名である。この部分は他のデータと区別され、直 接変更することはできない。変更する場合はメニュー[編集-行名入力]や[編集-列名入 力]を利用する。但し、後に述べるように枠を移動して簡易的に入力する方法もある。
もし、Excel側でレコード名の部分を選択しなかった場合、図4のように間違った貼り付 けになるが、レコード名を必要としなかったら、メニュー[編集-枠移動-右へ]で列が右 に1つずれて図5のようになる。
図4 行名を付け忘れた場合 図5 全体を右にずらして修正
この枠移動の機能は、そのままでは変更できないレコード名や変数名を、通常のデータに変 更して簡易的に修正する方法としても便利である。但し、変更後は元に戻しておく必要があ る。
1.3 分析の実行
ここでは量的データの集計を例にとって、一度分析を実行してみよう。メニュー[分析-
基本統計-量的データの集計]をクリックすると図6の実行画面が表示される。
図6 量的データの集計実行画面
分析はどの変数を利用するかを決めることから始まる。「変数選択」ボタンをクリックする と、図7左のような変数選択画面が表示される。
5
図7 変数選択実行画面
左上のコンボボックス(001-合否と出ているもの)をクリックして表示された変数の中から 使用するものを選ぶと図 7 右のように下のリストボックスに表示される。選択のメニュー には「All」、「Delete」、「Reset」、「Top」、「Up」、「Down」があるので動きを試してもらいた
い。「Delete」や「Top」などはリストボックスの変数を選択してクリックする。変数選択の
後、「OK」ボタンをクリックすると変数選択が確定され、変数選択画面は消える。
この後、「基本統計」ボタンと「ヒストグラム」ボタンをクリックした結果を図8に示す。
図8 分析結果
左はグリッド出力と呼ばれる表形式の出力で、右はグラフ出力と呼ばれる図である。これら のデータは、グリッド出力のメニュー[編集-全コピー]やグラフ出力のメニュー[編集-
画面コピー]でコピーすることが可能で、データ元のExcelに貼り付けて使うと便利である。
卒論などでは、基本的にこの貼り付けた結果を利用することになる。図はあまり凝っていな いので、美しさを求めるなら、Excelのグラフ機能を用いる方がよい。そのため、グラフに は必ず図を出力した際のデータがグラフ出力メニュー[編集-データ表示]として出力でき るようになっている。
1.4 データの保存と読み込み
これまではデータを Excelからコピーして利用していたが、C.Analysis独自の方法(「,」 で区切られたテキスト形式)で保存することもできる。その際はExcelなどのように複数の
6
ページにデータを貼り付けて保存することもできる。
独自のデータ保存のためにメニュー[ファイル-上書き保存]や[ファイル-名前を付け て保存]がある。C.Analysisで保存したデータは、メニュー[ファイル-開く]で読み込む ことができるが、残念ながらExcelのデータはそのままでは読み込むことはできない。ただ csvファイルなら読み込みは可能である。HP上にあるSamples.zipに含まれる多くのファイ ルは上のようにして作られたファイルである。分析を実行する前にSamples.zipをダウンロ ードして展開しておいて欲しい。
2.エディタツール
ここではC.Analysisのグリッドエディタのメニュー「ツール」で、少し特殊で便利なもの
について簡単にまとめておく。以後は Samples.zip の中に含まれる「CAnalysis 入門用デー タ.txt」(1章のデータを保存したもの)を利用するため、メニュー[ファイル-開く]を選 択して最初に読み込んでおく。
エディタツールには、以下のようなツールがある。
行・列並び替え、検索・置換、データ生成、計算、文字列結合、データ形式変換、
0/1変換、データチェックなど
検索・置換は一般的、データ生成や計算は主に教材作成用、0/1変換は特殊であるのでここ では触れない。
2.1 行と列の並び替え
メニュー[ツール-行並び替え]を選択すると、図1の行並び替えの実行画面が表示され る。
図1 行並び替え実行画面
実行方法は、並び替え順にキー(変数名)を選択して、下のリストボックスに表示し、「出 力」ボタンをクリックする。ここでは並びの順番(昇順・降順)やデータ型の解釈(数値・
文字列)などが変更できる。また、「グリッド出力」ラジオボタンを選択することにより、
変数を選択して、一旦グリッド出力と呼ばれる形式で出力し、確認後グリッドエディタに上 書きしたり、別のページに貼り付けたりすることができる。最後の部分を除いては一般的な ソフトと大差ない。
7
エディタの列の並び替えは、メニュー[ツール-列並び替え]を用いる。図2に列並び替 えの実行画面を示す。
図2 列並び替え実行画面
実行画面では現在の変数がリストボックスに表示される。この並びを変数選択のメニュー の中にもある「Top」、「Up」、「Down」ボタンによって変更し、「実行」ボタンをクリックし てエディタの変数並びを変更する。
2.2 文字列結合
文字列結合は複数の質的データをつなげてより細かな分類を作るための機能である。こ れを使うと3 次元や 4 次元分割表や複数の質的データで分けた集計など細かな分析が可能 となる。メニュー[ツール-文字列結合]を選択すると図 3 のような実行画面が表示され る。
図3 文字列結合実行画面
まず「出力列」を選ぶが、予め列を作っておいて「範囲指定」でその列を選択するか、「新 規追加」を選ぶのが便利である。新規追加の場合は、前に述べた「列並び替え」機能を使っ て、変数を好きな位置に持って行ける。結合の方法は、「表式 =」の部分に下の「変数名代 入」などのところから選んで、例えば「’クラブ活動’’アルバイト’」などのようにシングル クォーテーションを付けて変数名を記述する。例えば「’クラブ活動’と’アルバイト’」のよ うに、その他の文字を追加してもよい。変数名の部分に具体的なデータの値が代入され、指 定した列に挿入される。これにより変数名を合わせた新しいデータが作成されるので、これ を元に集計を行えば、自由な分類での集計が可能となる。
8 2.3 データ形式変換
これは発想の面白いツールである。これまで例えば合否別のデータで、合格だけで多変量 解析を実行する場合、データを合否別に分けて行っていたが、ここでは合否別のところを新 しい形式で出力することで、簡単に合否で分けて分析が実行できるようになる。メニュー
[ツール-データ形式変換]を選択すると図4のような実行画面が表示される。
図4 データ形式変換実行画面
「群別データから」ラジオボタンを選んだ状態では、変数選択をした変数が選択順にグリッ ド出力に出力されるだけだが(変数を選択して順番を変える機能)、「先頭列で分離」ラジオ ボタンを選んで、例えば、「合否」と「SPI」「一般常識」を選択すると、図5のようなデ ータが出力される。
図5 先頭列で分離実行結果
このデータは合否で 2 つの変数の列を分離して出力したものである。データがある側の他 の側は欠損値(空欄)になる。これをグリッドエディタに貼り付けて利用した場合、多変量 解析などでは1つでも欠損値があればそれを除いて分析することから、合否の片側だけを 使った分析ができることになる。さらに、前の文字列結合と合わせると細かな分類での分析 も可能になる。これで、分類については、表形式でも言語型の分析ソフトに近い形で分析で きるようになった。
2.4 データチェック
最近はアンケート調査でMicrosoft Formsなどネットを利用することが増え、入力ミスが ほとんどなくなったが、アンケート用紙を使った場合は入力ミスに注意する必要がある。こ の入力ミスの概略を調べるツールが「データチェック」である。メニュー[ツール-データ チェック]を選択すると図6のような実行画面が表示される。
9
図6 データチェック実行画面
実行方法は調べたい変数(すべての変数でもよい)を選択して、「出力」ボタンをクリック するだけである。実行結果を図7に示す。
図7 データチェック実行結果
「分類の数」は質的データについて、入力項目にない誤入力について調べるもので、量的デ ータについては利用者が無視をすればよい。「数字の数」と「非数字の数」は、数字の中に 全角文字やアルファベットが含まれていないかを調べる。「空白の数」では、目に見えない 空白の入力を調べる。「欠損値の数」は入力し忘れた個所を調べる。いずれも詳しいデータ は表示されないが、誤入力が見つかった場合は分割表や検索の機能を使って修正する。もう 少し詳しい結果を出すように改良することも考えている。
3.卒論指導などでの便利な機能
3.1 分割表とカイ2乗検定
質的データの集計で2次元分割表は最もよく使われる。C.Analysisではメニュー[分析-
基本統計-質的データの集計]を選択すると、図1のような実行画面が表示される。
図1 質的データの集計実行画面
通常 2 次元分割表は2 つの変数を選んで分割表を作成するが、3 つ以上の変数を選択する
10
と、図2のように最初に選んだ変数と残りの変数との2次元分割表が並んで表示される。
図2 3つ変数を選んで出力した分割表
これは最初に選んだ変数「合否」で分けた2つの分割表を繋げたものである。C.Analysisの 出力結果はExcelに貼り付けて使うことが多いので、1つ1つの分割表をコピーしてWord などに貼り付けられるように配置している。
次に非常によく利用されるχ2検定について述べる。メニュー[分析-基本統計-質的デ ータの検定-χ2検定]を選択すると図3のような分析実行画面が表示される。
図3 χ2検定実行画面
ここでも2つの変数を選んで「検定」ボタンをクリックすると結果は詳細にテキスト出力さ れる。しかし、3つ以上例えば4つの変数を選んで「検定」ボタンをクリックすると、図4 のように合否を1つの分類とした3つの検定結果が簡易的に表示される。
図4 4変数を選んだ場合のχ2検定実行結果
これは検定結果が比較しやすく、このまま卒論に貼り付けて使うこともできる(但し確率の 値はp<0.001, p<0.01, p<0.05, n.s.などのように書き換えた方がよい)。
3.2 量的データの集計と検定
メニュー[分析-基本統計-量的データの集計]を選択すると図5のような分析実行画面 が表示される。
11
図5 量的データの集計実行画面
一般的な使い方は、総合マニュアル 02_1(基本統計1)を見てもらいたいが、ここでは特 に卒論指導用に作った「簡易統計量」ボタンでの表示を示しておく。これは基本統計量の中 で、特に重要な指標を卒論に貼り付けやすいように出力するものである。例えば「合否」で 分けた量的データの集計結果は図6のようになる(「先頭列で群分け」ラジオボタンを使う)。
図6 簡易統計量出力結果
よほどきびしいことを要求されない限り、出力は、データ数、平均値、標準偏差でよいので はなかろうか。これを結果として卒論に貼り付ければ十分であろう。また、それ以上のこと を要求される場合は「基本統計量」ボタンで詳細に見ればよい。
いくつかの変数のデータの小計を求めた方がよい場合、通常は最初にExcelで集計を行う のが基本であるが、質問に来る学生のデータを見ると、それを飛ばしている場合がある。そ の場合、一旦 Excel に戻って計算する方がよいと思われるが、簡単に結果を見たい場合、
C.Analysisの中で処理してもよい。小計を計算したい変数を選択して「選択列横集計」ボタ
ンをクリックすると、図7のような結果が出力される。
図7 選択列横集計実行結果
12
この中から必要な列を選んでグリッド出力メニュー[編集-エディタ指定列追加]を選んで グリッドエディタの最終列に貼り付ける。順番は2.1節に従って自由に入れ替えることがで きる。
次にカイ 2 乗検定と並んで最もよく利用される 2 群間の比較検定である。メニュー[分 析-基本統計-量的データの検定-量的データ検定メニュー]を選択すると、図8の分析実 行画面が表示される。
図8 量的データ検定メニュー画面
「2群間の比較」の「対応なし」の下の部分に「自動」ボタンがあるが、これが自動的に分 析を選択して、検定を実行するボタンである。「先頭列で群分け」ラジオボタンを選んで、
合否とすべての量的データの変数を選択して、「自動」ボタンをクリックすると、図9のよ うな結果が表示される。
図9 検定自動選択検定結果
これによるとどのように分析が選ばれて結果がどうなったかが一目で分かる。これは卒論 などに貼り付けるには丁度良い大きさである。
また、t検定だけで分析を行いたい場合は、「t検定」ボタンをクリックして表示される図 10のt検定実行画面を利用する。
13
図10 t検定実行画面
この画面で、分類する質的データの他に複数の変数を選択すると、図11のようにt 検定だ けを使った結果が出力される。
図11 t検定実行結果
3.3 実験計画法
特に3群以上の検定で用いられる実験計画法については、メニュー[分析-多変量解析他
-実験計画手法-実験計画法]を選択すると図12のような分析実行画面が表示される。
図12 実験計画法実行画面
ここにも前節と同じ変数自動選択の機能がる。この中で、例えば3群のアルバイトと前節と 同様の量的データの変数を選択し、「対応なし」の下にある「自動」ボタンをクリックする と、図13のような分析結果が表示される。
14
図13 検定自動選択実行結果
特に1元配置分散分析だけを使いたい場合は、そのまま「1元配置分散分析」ボタンをク リックする。結果は図14のように表示される。
図14 1元配置分散分析実行結果
以上述べてきた機能は、これまで学生の卒論指導でよく利用してきたものである。理想を 言えば、論文では仮説を設けてこれを検定するのが基本であるが、学生はあまりこれらのこ とを考えず、結果から何らかの結論を得ようとする。これは知識と時間に制約のある卒業論 文ではある程度大目に見るべきことなのかも知れない。その場合、指導者にとってまずざっ と結果を眺めることは必要なことであろう。これは長い間いろいろな卒業論文を見てきた 著者のよくない習慣なのかも知れない。
他の分析ソフトと比べた場合、C.Analysisの最大の利点は、インストールが不要な点であ
る。C.Analysisは6MBほどの小さなファイル「CAnalysis.exe」だけで実行が可能である。そ
のため学生などにもUSB メモリを介して手渡しが可能である。C.Analysisは分析で困って いる文系の学生さんや初心者の方などに使ってもらえたらと思う。