判定水準以上の実力のある受験者を誤って却下する確率とそ の要因に関するノオト ∗
A note on the probability of rejecting the students who satisfy the requirement of the examiner
矢内浩文 (茨城大学工学部メディア通信工学科)
http://mu.dmt.ibaraki.ac.jp/yanai/
1 はじめに
試験や評価については,無数の理論や,実践で得られた経験則が存在するでしょうから,大学教師となっ て13年に過ぎない者の思いつきの考察は,ベテラン教師から見たら周知の事実であるという恐れが十分に あると思われますが,せめて確率の授業での演習問題の素材になるくらいの価値はあるだろうと判断し,敢 えてここに数理的考察を紹介します.
試験問題を作成するたびに頭をよぎるのは,僕の大学教師経験の最初である今とは別の大学で,新任教 師に配布された小冊子の一節です(今ではどこかへしまい込んだのか,なくしてしまったのか,見つけ出す ことができません).教育の大家(外国人)の後進に向けた助言を日本語に訳したものだったと記憶していま す.文言は覚えていないのですが,「試験は0点が出てもいけないが,満点が出てもいけない.0点を取った 者は自分がどれくらい身に付いたのか判断できないし,満点を取った者は,自分がどれくらい不足してい るかが分からないからである」という風な内容でした.これまでは幸い,0点というのはありませんでした が,満点というのは何度か経験し,その度に「しまった」と思いました.これが現在の混沌とした教育体制 の中で実効的な意味を持つのかどうか確信はありませんが,個人的なひとつのよりどころとなっているこ とは確かです.
さて,本題に入りましょう.
個人的には,論述式で部分点を設ける問題を出すことがほとんどなので,これまであまり真剣に考えてこ なかったのですが,最近,数理的考察の演習問題としての興味から,正解か不正解のどちらかと判定する問 題が多数ある試験の得点について考察してみたところ,予想外の結果が得られました.それは,他の教師の みなさんにも,少なからず参考になるかもしれない思いました.
試験の判定は,合格と不合格の場合やA+, A, B, C, D, Eの6段階にするなどいくつかの方法がありま すが,そのどれにも共通しているのは,ある得点以上かどうかに応じて判定を決めることです.ですから,
以下に述べる「誤って却下する」とは,本来合格の実力のある受験者を不合格とすることはもちろん,本来 A以上の評価に相当する実力のある受験者をB以下と判定することも含みます.
考察の観点は,
• 誤って却下する確率はどの要因にどう依存するのか?
• 誤って却下する確率を小さくするためにはどうすればよいか?
∗これは「矢内浩文: “判定水準以上の実力のある受験者を誤って却下する確率とその要因に関するノオト”,大学教育研究開発セン ター年報,第8号, pp. 59–62 (2004年3月)」の印刷前原稿です.
1
です.2番目については,できるだけ多くの問題を出すというのが最も単純な解決法ですが,現実的ではあ りません.問題を少数に抑えつつも誤って却下する確率を小さくするにはどうすればよいかを明らかにす るのが課題です.
2 問題の設定と補足説明
このノオトの考察の前提は次の通りです.
1. 解答の判定は正解か不正解の何れかで,中間点はつけない.
2. 配点は均一である.
3. 受験者の実力は,ある問題に正解する確率pである.
全問題数をn,正解数をmとすると,正解率はm/nです.各問題に対して正解となるか不正解となるか は問題が異なれば独立で,正解する確率は均一なpであるとすれば,n問中k問が正解となる確率Pn(k) は二項分布に従い,
Pn(k) =nCkpk(1−p)n−k
となります.これを用いれば,正解率がT以上(ただし0≤T ≤1)となる確率は
P (m
n ≥T )
=
∑n
k=m0
nCkpk(1−p)n−k
となります.ただし,m0 はm0 ≥ T nを満たす整数のうち最小のものです.例えば,T n = 21.6ならば m0= 22で,T n= 23.0ならm0 = 23です.
考察の前提3の「受験者の実力は,ある問題に正解する確率pである」について補足しておきます.実 力とは,十分に多数の同水準の問題に解答した場合の正解率と考えられます.だから,実力が出し切れな かったとは,運悪く苦手な分野の問題が多く出たということです.出題者から見て,Aくんならある試験で 80点取れるだろうと考えるとすれば,それは,その試験に対するAくん実力は80%だと判断しているとい うことであり,つまり,その試験に対するAくんの正解率は0.8であるとみなしているということになり ます.
すぐ下で見るように,ここにひとつの大きな誤解が潜んでいます.おおまかにいえば,実力がpの学生が 試験全体でp以上の正解率を得る確率は50%前後です.つまり,判定水準をT =pとしてしまうと,実力 がpの学生の半数が却下されてしまいます.簡単にいえば,実力がpの学生が合格するようにしたいなら,
出題をもっとやさしくするか,判定水準を下げなければなりません(もちろん,判定水準を下げると新たな 問題が発生します.実力のない学生を受け入れてしまう問題です).
個人認証(パターン認識)の分野では,受け入れるべき人を拒否することをfalse rejection,拒否すべき 人を受け入れることをfalse acceptionと呼びます.そこでここでは,判定水準以上の実力のある受験者を 誤って却下してしまう確率を,PF Rと書くことにします.
3 結果
まず特定の例を使って概要を説明しましょう.
• 実力:p= 0.85
• 判定水準:T = 0.8
2
の場合を見てみます.これは,十分に多数の,独立で同水準の問題が出題された場合に85%に正解できる 確率を持つ受験者を,限られた問題の評価で80%以上の能力と判定できるかどうかという問題です.現在 の茨城大学の評価でいえばA評価となるかどうかの境界のところです.
図1に,判定水準以上の実力のある受験者を誤って却下してしまう確率を示します.これによれば,実力が 判定水準より上回っていても,30問程度では20%前後の判定誤りが発生することが分かります.更に,問題 数による変動が大きく,例えばn= 25ならPF R'0.16(16%)であるのに,n= 29ではPF R'0.26(26%) にまで達します.
(a) (b)
図1: PF Rと問題数nの関係.実力p= 0.85,判定水準T = 0.8の場合.(b)は(a)の一部を拡大した図.
念のため示しますが,実力pが大きいほど,そして判定水準T が小さいほど判定誤りが小さくなるとい うのは直感通りです(図2).
最後に,pとTの変化の影響を見るために,さまざまな場合について比較できるようにしたのが図3です.
図から分かることをいくつか挙げると,図3(a)によれば,判定水準がT = 0.8の場合には,実力がp= 0.9 であっても,判定誤りを十分に減らすためには,問題数nはおおむね40以上は必要であるといえるでしょ う(n= 40のときPF R= 1.5%).また,図3(b)によれば,判定水準がT = 0.6の場合には,実力がp= 0.8 であっても,判定誤りPF Rを1%以下にするには問題数nが概ね25以上は必要です.
4 おわりに
最後に,重要な補足をしておきます.ここで考察したのは,「出題が独立」な場合でした.つまり,ある 問題ができれば別の問題も確実にできるというような相関がない場合でした.もしも,問題に正の相関が あると,実質上の問題数が少なくなります.よって,問題に正の相関がある場合にこの結果を適用する際に は注意が必要です.例えば図1の場合で見ると,30問出して判断誤りを小さく抑えたつもりが,一組の問 題に強い正の相関があったとすると,実質上の問題数は29になり,現実の判断誤りは非常に大きくなって しまいます.
3
(a) (b)
(c) (d)
図2: (a)PF Rと実力pの関係,判定水準T = 0.8.(b)は(a)の一部を拡大した図.(c)PF Rと判定水準T の関係,実力p= 0.85.(d)は(c)の一部を拡大した図.
(a) (b)
図3: PF Rと問題数nの関係.(a)は判定水準T = 0.8の場合で,実力pは下から0.95, 0.9, 0.85.(b)は判 定水準T = 0.6の場合で,実力pは下から0.95, 0.9, 0.85,0.8,0.75 (0.95はほとんど横軸に重なっている).
4