
今回はテスト作成の裏側のお話をしたいと思います。
知っておくとちょっとお得になるかもしれません。

とっても気になるじゃないですかー、リン先生!

まぁまぁ慌てないで、お話は逃げないから。
英検®、TOEIC、TOEFL。
これらのテスト作成に大いに関わってくる話ね。
それは項目応答理論。
さて、エイコちゃんは聞いたことがあるかしら?

初めて聞きます。
うん、おそらく多くの人は初めて聞くんじゃないかしら。
項目応答理論について知ることができる分野、機会って限られているからね。

まぁまぁ。
確かに、項目応答理論って中々専門性の高い領域のお話になるけど、今回はできるだけ分かりやすくお伝えするからね。
それでは、「項目応答理論を分かりやすく解説!英語試験の見方が変わる!」と題してお話していきます。
なお項目応答理論って言葉はちょっと長く感じちゃうから、英語略称のIRT(Item Response Theory)で文中は呼ばせていただくわね。
今回の記事は次の書籍を参考にしています。


項目応答理論が有名になる前、従来型テストの問題

本記事における従来型テストの意味ですが、
日本の小学校〜高校の先生が作成するような100点満点のテストを想像していただければよいです。
さらに言うならば次のような特徴が見られるテストです。
- 採点結果は正答した問題の配点を足し上げるもの。
- 問題同士が独立していない場合もある。例えば、問1の答えをふまえて問2に解答するような問題。
従来型テストの問題その1

さてエイコちゃんが高校生のときってテストは100点満点の形式だったかしら?

英語はいつも90点前後でしたよ(どやっ)。
素晴らしいわね。
でも、この90点が持つ意味って何なのかしら?

90点は「すごい」の意味があると思います!
なるほどね。
それじゃあ次の場合を考えてみようかしら。
そのことにより先生は気分が高揚しています。
先生は少しテストを易しく作成しました。
その結果、クラスの平均点は98点になりました。

この場合90点ってすごいって言えるかしら?
(学校の先生が気分によって難易度を変えるって考えにくいけど、たとえ話であることを了承ください)

だよねー。
テスト結果の点数って、
- 受験者の学力
- 問題難易度
の2軸によって決まってしまうの。

でも難易度ってぶれがあるから、結果の数字に意味が出にくくなってしまうの。
90点だから「すごい」、60点だから「もっと努力が必要」って簡単に言い切ることは難しいわね。
異なる問題からなるテストの結果を互いに比較することができない。
これが従来型テストの問題その1になるわね。
従来型テストの問題その2

もう一つは偏差値に関すること。
エイコちゃんが高校時代に受けたテスト、偏差値は使われていたかしら?


それじゃあ、校内偏差値と県内偏差値を使って考えてみましょうか。
例えばだけど、エイコちゃんは1月に校内テストを受けて、校内偏差値が65だったとする。

まぁ、たとえ話なんだけどね。
そして、2月に県下一斉テストを受けて、県内偏差値が60だったとする。


だから、たとえ話だってば。
さてエイコちゃんに質問です、この場合エイコちゃんの学力は上がったかしら?下がったかしら?

そう、まさにそのとおり。
従来型テストだと、受験者集団が異なってくると、その偏差値を比較することができなくなるの。
異なる集団で得られたテストの結果を互いに比較することができない。
これが従来型テストの問題その2になるわね。
項目応答理論って何?


それは学力を数値化する測定の理論。

まぁ、そこまで身構えなくてもいいわよ。
- 100点満点のテストの得点
- 偏差値
これも学力を数値化したものだから。
IRTも学力を数値化する方法の一つ。
正しく合理的に採点された結果をもとに、受験者の得点を求める。
そういった意味では、100点満点のテストの得点、偏差値と変わらないわね。
だけど、IRTについて採点の結果から得点を算出する方法は他の2つとまったく違うわね。
IRTでは学力を測定する道具として目盛りのついた「ものさし」を事前に用意するの。

これで受験者の学力を測るってわけ。

気になります!
そうね、それについては後で話しましょうか。
項目応答理論を使う条件

IRTを使うためには次の2つの条件があります。
- 「局所独立の仮定」が成り立っている
- テストの「1次元性」が保たれている
になります。

そうね、分かりやすく表にするとこうなるかしら。
条件 | 意味 |
---|---|
「局所独立の仮定」が成り立っている | 問1の答えをふまえて問2に解答するような問題を出題してはいけない |
テストの「1次元性」が保たれている | 出題された問題がすべて英語の学力を測る問題であるなら、数学や理科の問題を混ぜてはならない |
英検®、TOEIC、TOEFLもIRTに従って作られているんだけど、当てはまっているでしょ?

まぁ、これらが条件ね。
IRTに従ったテスト作成ではこの条件を守らないといけないわ。
項目応答理論とテストの仕組み

項目応答理論とテストの仕組みについてお話します。

まず従来型テストの問題、2つあったわね。
エイコちゃん、覚えているかしら?

・異なる問題からなるテストの結果を互いに比較することができない。
・異なる集団で得られたテストの結果を互いに比較することができない。
です。
その通り、素晴らしいわ!
それらの問題を解消するのがIRTってわけ。
それじゃぁ、詳しく説明していくわね。
非破壊検査に似たアプローチ


非破壊検査でイメージが湧きやすいのは、橋やトンネルの検査になるわね。
橋やトンネルは長年経つと劣化する、だからその痛み具合を調べて補強するべきか取り壊すべきか判断しなければならない。
痛み具合を一番正確に把握する方法は、橋やトンネルを真っ二つにしたり切り抜いたりすることなんでしょうけど、現実にできないでしょ?
だから真っ二つ、切り抜き等の破壊をせずに痛み具合を調べなければならない。
それが非破壊検査。
よくあるのが次の写真のように作業員が橋やトンネルの壁をハンマーで叩いてその返ってくる音で調べる方法。


- 傷んでいたらこんな音がする
- 傷んでいなかったらこんな音がする
…という仮定をして橋やトンネルの検査をするわけね。
そしてテストもそのアプローチに似ているわね。
その人にはどれくらいの学力があるか?
頭を真っ二つにして調べるわけにもいかない。

だから、
- 学力がθだけある人は、問題Xに対してこのように反応するだろう。
といった仮定をして測定をするの。
IRTを含め、テストの世界ではこの考えのもとテストが作成されているわね。
項目応答理論におけるものさし

さて、IRTではどうやって学力を測るか?

それは次のとおり。
そしてIRTでは
- テストの問題の作成者が配点を決める必要もないし
- 正答した問題数を数えたり、問題の配点を合計して得点を求めることをしない
ことになるわね。
これだけだと何のことか分からないからたとえ話をするわね。
IRTの学力推定、それは視力検査に似ているの。

さっそく次の図を見ていただこうかしら。

エイコちゃんは、視力検査は受けたことはあるわよね?

両目とも1.5です♪
IRTはまさに視力検査のやり方に似ていて、
この輪っか(ランドルト環と言います)が見えていれば視力1.2だろう。
この輪っか(ランドルト環と言います)が見えなかったので視力0.1だろう。
のように判定するの。
だから、高い視力という判断をもらうためには0.1が10回見えても意味がないことになる。
これってIRTのテストでもそうで、易しい問題にたくさん正答できても学力θの値を高くすることにあまり貢献しないの。
だから、IRTのテストではどのくらい難しい問題に正答したかが学力θを測るうえでは重要になってくる。
視力検査とIRTテスト、対応関係を表にすると次のようになるわね。
視力検査 | IRT |
---|---|
輪っか(ランドルト環) | 問題 |
輪っかの大きさ | 問題の難しさ |
このように視力検査のようなことをするから従来型テストが抱えていた2つの問題を解消できるの。
エイコちゃん覚えているかしら?

・異なる問題からなるテストの結果を互いに比較することができない。
・異なる集団で得られたテストの結果を互いに比較することができない。
です。
そのとおり、ありがとう。
1つ目の問題「異なる問題からなるテストの結果を互いに比較することができない。」なんだけど、
視力検査で輪っか(ランドルト環)をEの字やひらがなに変えても視力測定ができるのと同様、IRTテストでは受けるたびに問題が変わっても学力が測定できるわ。
分かりやすく図にすると次のとおりになるわね。


です。
そして2つ目の問題「異なる集団で得られたテストの結果を互いに比較することができない。」なんだけど、
視力検査が全国のどの診療所・病院で受けても同じ結果を示すのと同様、IRTテストはどの受験地でも学力がθなら結果はθになるわ。


さらにIRTが素晴らしいのは受験者数が1人になっても学力が測れること。
視力検査が1人でも視力が分かるのと同じ考えね。
従来型だったらたくさんの受験生がいて自分の相対位置が分かる状態だったからね。

これなら日本全国のありとあらゆるテストをIRTにすればいいと思います♪
ところがそうはいかないのよ。

うん。
まずIRTは手段であって目的じゃないからね。
テスト実施者はまずテストで何を測りたいか決めないといけないからね。
それを踏まえてIRTが良さそうなら候補に含めればいいと思う。
そして、今まで話さなかったんだけどIRTって高度な専門知識と管理技術が要るの。
今回ももう少し踏み込んだ話をしたら数学の話をしなければならないけどエイコちゃんは興味あるかしら?

うん、エイコちゃんみたいに数学に苦手意識を持つ人もいるから今回数学の話は出さなかったわ。
だけどIRTについて数学の話を含めて詳しく知りたいって方。
冒頭でも紹介したけど次の本をおすすめするわ。
項目応答理論から英語試験について言えること

こうなるかと思います。
受験会場、受けたテストの難しい易しいの偏りは関係ありません。
(難しい易しいの偏りは等化と言う調整により受験者の得点が調整されます)
・易しい問題にたくさん正解するよりも難しい問題に正解する方が高く評価されるかもしれません。
・過去に出題された問題が再登場することもあります。
(良質な問題は項目プールという問題をストックする場所で管理されます。テストは項目プールから出されます。)
というところかしら。

そうよ。
受験者の学力を測る良質な問題、1回切りで使わなくしたらもったいないじゃない?
実際に英検®のリスニング問題は5年以上前の問題が再登場することがあるわね、私もそれは確認済。
TOEICやTOEFLに関しては私は分からないけど、噂では過去の問題が再登場したって話ね。
TOEICやTOEFLの問題を受験者が持ち帰ることができないのは、過去の問題を再利用するためって考えられるわね。
あと英検®に関する興味深い話。
英検®は2016年度のリニューアルによりIRTを取り入れたの。
私と英検®受験する複数の知人で素点とCSEスコアの関係を調査したら次の図になったわ。

後知恵になっちゃうんだけどこの図におけるカーブが意味するのは次になるんじゃないかしら。
受験者Aさんが、英検®X級を受けること考えた場合、
- Aさんの正答率が高すぎる→Aさんは上の級を受けるべき学力→CSEスコアも上の級に合わせて急激に上昇
- Aさんの正答率は7-8割→7割も8割も学力はどっこいどっこいなのでカーブはゆるやか
- Aさんの正答率が低すぎる→AさんはX級を受けるべきでない学力→CSEスコアも下の急に合わせて急降下
かなって思うわ。
図でも書いているんだけど、IRTを取り入れた英検®に関しては次のことも言えるわね。
・正答率80%超えた辺り?からCSEスコアがぐっと上がる→得意分野は伸ばそう!
まずはバランス良く得点を取って、得意分野があれば伸ばそう!
になるってこと。
まとめ

IRTの概要が分かっていれば
- 受験者が取得した得点の意味
- どうすれば高得点が取れるか
- 過去問が再登場することがある
が分かってくるのではないかと思います。
エイコちゃんどうだったかしら?

過去に出題された問題が再登場することは驚きでした!
それは良かったわ。
IRTは近年話題となり教育関係者でも注目を集めている。
これは憶測だけど、今後より多くのテストがIRT形式になるかもしれない。
そうすれば今回の記事でお伝えした知識が役に立つんじゃないかな。

それでは皆さん、英語試験頑張ってくださいね。

メール相談受付中
ブログに対するご意見、
英語の勉強法についての相談、
気軽にしていただけたらと思います。
管理人のキャパシティーが超えない範囲で対応させていただきますね♪
(↓ メール相談は↓をクリック! ↓)
