項目応答理論を分かりやすく解説！英語テストの見方が変わる！

こんにちは！英語上級者になりたい方のサポート役、リンです♪

今回はテスト作成の裏側のお話をしたいと思います。

知っておくとちょっとお得になるかもしれません。

何ですか、何ですか？
とっても気になるじゃないですかー、リン先生！

もったいぶらないで、教えてくださいよー！

まぁまぁ慌てないで、お話は逃げないから。

英検®、TOEIC、TOEFL。

これらのテスト作成に大いに関わってくる話ね。

それは項目応答理論。

さて、エイコちゃんは聞いたことがあるかしら？

項目応答理論・・・？
初めて聞きます。

うん、おそらく多くの人は初めて聞くんじゃないかしら。

項目応答理論について知ることができる分野、機会って限られているからね。

うー、何か難しそうです・・・！

まぁまぁ。

確かに、項目応答理論って中々専門性の高い領域のお話になるけど、今回はできるだけ分かりやすくお伝えするからね。

それでは、「項目応答理論を分かりやすく解説！英語試験の見方が変わる！」と題してお話していきます。

なお項目応答理論って言葉はちょっと長く感じちゃうから、英語略称のIRT(Item Response Theory)で文中は呼ばせていただくわね。

今回の記事は次の書籍を参考にしています。

参考文献1

「新テスト」の学力測定方法を知るIRT入門―基礎知識からテスト開発・分析までの話 / 別府正彦
Amazon 紙書籍楽天紙書籍

参考文献2

項目反応理論[入門編](第2版) / 豊田秀樹
Amazon 紙書籍楽天紙書籍

コンテンツ 非表示

1 項目応答理論が有名になる前、従来型テストの問題

5 項目応答理論から英語試験について言えること

6 まとめ

6.1 メール相談受付中

項目応答理論が有名になる前、従来型テストの問題

項目応答理論が有名になる前、従来型テストの問題についてまずお話します。

本記事における従来型テストの意味ですが、

日本の小学校〜高校の先生が作成するような100点満点のテストを想像していただければよいです。

さらに言うならば次のような特徴が見られるテストです。

採点結果は正答した問題の配点を足し上げるもの。
問題同士が独立していない場合もある。例えば、問1の答えをふまえて問2に解答するような問題。

従来型テストの問題その1

さてエイコちゃんが高校生のときってテストは100点満点の形式だったかしら？

はい、そうです。
英語はいつも90点前後でしたよ（どやっ）。

素晴らしいわね。

でも、この90点が持つ意味って何なのかしら？

えっ、90点ってすごいと思いますけど・・・？
90点は「すごい」の意味があると思います！

なるほどね。

それじゃあ次の場合を考えてみようかしら。

テスト作成者の先生に最近良い出来事がありました。
そのことにより先生は気分が高揚しています。
先生は少しテストを易しく作成しました。
その結果、クラスの平均点は98点になりました。

この場合90点ってすごいって言えるかしら？
（学校の先生が気分によって難易度を変えるって考えにくいけど、たとえ話であることを了承ください）

うーん、さすがにこの場合は違うと思います。

だよねー。

テスト結果の点数って、

受験者の学力
問題難易度

の2軸によって決まってしまうの。

でも難易度ってぶれがあるから、結果の数字に意味が出にくくなってしまうの。

90点だから「すごい」、60点だから「もっと努力が必要」って簡単に言い切ることは難しいわね。

異なる問題からなるテストの結果を互いに比較することができない。

これが従来型テストの問題その1になるわね。

従来型テストの問題その2

もう一つは偏差値に関すること。

エイコちゃんが高校時代に受けたテスト、偏差値は使われていたかしら？

はい、使われていました！

校内偏差値、県内偏差値、全国偏差値があったと思います・・・。

それじゃあ、校内偏差値と県内偏差値を使って考えてみましょうか。

例えばだけど、エイコちゃんは1月に校内テストを受けて、校内偏差値が65だったとする。

どやっ

まぁ、たとえ話なんだけどね。

そして、2月に県下一斉テストを受けて、県内偏差値が60だったとする。

えっへん♪

だから、たとえ話だってば。

さてエイコちゃんに質問です、この場合エイコちゃんの学力は上がったかしら？下がったかしら？

んー、受験者の集団がそれぞれ違うので何とも言えません。

そう、まさにそのとおり。

従来型テストだと、受験者集団が異なってくると、その偏差値を比較することができなくなるの。

異なる集団で得られたテストの結果を互いに比較することができない。

これが従来型テストの問題その2になるわね。

項目応答理論って何？

「項目応答理論って何？」について。

何ですか、何ですか？

それは学力を数値化する測定の理論。

うわー、何か難しそうですねー。

まぁ、そこまで身構えなくてもいいわよ。

100点満点のテストの得点
偏差値

これも学力を数値化したものだから。

IRTも学力を数値化する方法の一つ。

正しく合理的に採点された結果をもとに、受験者の得点を求める。

そういった意味では、100点満点のテストの得点、偏差値と変わらないわね。

だけど、IRTについて採点の結果から得点を算出する方法は他の2つとまったく違うわね。

IRTでは学力を測定する道具として目盛りのついた「ものさし」を事前に用意するの。

これで受験者の学力を測るってわけ。

どんなものさしですか？
気になります！

そうね、それについては後で話しましょうか。

項目応答理論を使う条件

項目応答理論を使う条件についてお話します。

IRTを使うためには次の2つの条件があります。

「局所独立の仮定」が成り立っている
テストの「1次元性」が保たれている

になります。

それぞれどういう意味ですか？

そうね、分かりやすく表にするとこうなるかしら。

条件	意味
「局所独立の仮定」が成り立っている	問1の答えをふまえて問2に解答するような問題を出題してはいけない
テストの「1次元性」が保たれている	出題された問題がすべて英語の学力を測る問題であるなら、数学や理科の問題を混ぜてはならない

英検®、TOEIC、TOEFLもIRTに従って作られているんだけど、当てはまっているでしょ？

はい、当てはまっていますねー。

まぁ、これらが条件ね。

IRTに従ったテスト作成ではこの条件を守らないといけないわ。

項目応答理論とテストの仕組み

さて、ここからが本題です。
項目応答理論とテストの仕組みについてお話します。

待ってました！

まず従来型テストの問題、2つあったわね。

エイコちゃん、覚えているかしら？

はい！
・異なる問題からなるテストの結果を互いに比較することができない。
・異なる集団で得られたテストの結果を互いに比較することができない。
です。

その通り、素晴らしいわ！

それらの問題を解消するのがIRTってわけ。

それじゃぁ、詳しく説明していくわね。

非破壊検査に似たアプローチ

面白いたとえ話なんだけど、テストって非破壊検査に似たアプローチをしているわね。

非破壊検査？

非破壊検査でイメージが湧きやすいのは、橋やトンネルの検査になるわね。

橋やトンネルは長年経つと劣化する、だからその痛み具合を調べて補強するべきか取り壊すべきか判断しなければならない。

痛み具合を一番正確に把握する方法は、橋やトンネルを真っ二つにしたり切り抜いたりすることなんでしょうけど、現実にできないでしょ？

だから真っ二つ、切り抜き等の破壊をせずに痛み具合を調べなければならない。

それが非破壊検査。

よくあるのが次の写真のように作業員が橋やトンネルの壁をハンマーで叩いてその返ってくる音で調べる方法。

あー見たことあります。

傷んでいたらこんな音がする
傷んでいなかったらこんな音がする

…という仮定をして橋やトンネルの検査をするわけね。

そしてテストもそのアプローチに似ているわね。

その人にはどれくらいの学力があるか？

頭を真っ二つにして調べるわけにもいかない。

サスペンスやホラーの世界ですよ・・・！

だから、

学力がθだけある人は、問題Xに対してこのように反応するだろう。

といった仮定をして測定をするの。

IRTを含め、テストの世界ではこの考えのもとテストが作成されているわね。

項目応答理論におけるものさし

項目応答理論におけるものさしについてお話します。

さて、IRTではどうやって学力を測るか？

私気になります・・・！

それは次のとおり。

IRTにおける学力測定方法

受験者の正誤パターンから、最も可能性の高い「学力θ」を推定する。

そしてIRTでは

テストの問題の作成者が配点を決める必要もないし
正答した問題数を数えたり、問題の配点を合計して得点を求めることをしない

ことになるわね。

これだけだと何のことか分からないからたとえ話をするわね。

IRTの学力推定、それは視力検査に似ているの。

さっそく次の図を見ていただこうかしら。

エイコちゃんは、視力検査は受けたことはあるわよね？

はい！
両目とも1.5です♪

IRTはまさに視力検査のやり方に似ていて、

この輪っか（ランドルト環と言います）が見えていれば視力1.2だろう。

この輪っか（ランドルト環と言います）が見えなかったので視力0.1だろう。

のように判定するの。

だから、高い視力という判断をもらうためには0.1が10回見えても意味がないことになる。

これってIRTのテストでもそうで、易しい問題にたくさん正答できても学力θの値を高くすることにあまり貢献しないの。

だから、IRTのテストではどのくらい難しい問題に正答したかが学力θを測るうえでは重要になってくる。

視力検査とIRTテスト、対応関係を表にすると次のようになるわね。

視力検査	IRT
輪っか（ランドルト環）	問題
輪っかの大きさ	問題の難しさ

このように視力検査のようなことをするから従来型テストが抱えていた2つの問題を解消できるの。

エイコちゃん覚えているかしら？

そのとおり、ありがとう。

1つ目の問題「異なる問題からなるテストの結果を互いに比較することができない。」なんだけど、

視力検査で輪っか（ランドルト環）をEの字やひらがなに変えても視力測定ができるのと同様、IRTテストでは受けるたびに問題が変わっても学力が測定できるわ。

分かりやすく図にすると次のとおりになるわね。

なるほどー、分かりやすいです！
です。

そして2つ目の問題「異なる集団で得られたテストの結果を互いに比較することができない。」なんだけど、

視力検査が全国のどの診療所・病院で受けても同じ結果を示すのと同様、IRTテストはどの受験地でも学力がθなら結果はθになるわ。

分かりやすいです♪

さらにIRTが素晴らしいのは受験者数が1人になっても学力が測れること。

視力検査が1人でも視力が分かるのと同じ考えね。

従来型だったらたくさんの受験生がいて自分の相対位置が分かる状態だったからね。

すごいですねー。
これなら日本全国のありとあらゆるテストをIRTにすればいいと思います♪

ところがそうはいかないのよ。

えー、そうなんですかー。

うん。

まずIRTは手段であって目的じゃないからね。

テスト実施者はまずテストで何を測りたいか決めないといけないからね。

それを踏まえてIRTが良さそうなら候補に含めればいいと思う。

そして、今まで話さなかったんだけどIRTって高度な専門知識と管理技術が要るの。

今回ももう少し踏み込んだ話をしたら数学の話をしなければならないけどエイコちゃんは興味あるかしら？

数学は苦手です・・・！

うん、エイコちゃんみたいに数学に苦手意識を持つ人もいるから今回数学の話は出さなかったわ。

だけどIRTについて数学の話を含めて詳しく知りたいって方。

冒頭でも紹介したけど次の本をおすすめするわ。

参考文献1

「新テスト」の学力測定方法を知るIRT入門―基礎知識からテスト開発・分析までの話 / 別府正彦
Amazon 楽天

参考文献2

項目反応理論[入門編](第2版) / 豊田秀樹
Amazon 楽天

項目応答理論から英語試験について言えること

項目応答理論から英語試験について言えることについてお話します。

こうなるかと思います。

英語試験について言えること

・英検®、TOEIC、TOEFLの得点。紛うことなくあなたの学力を示します。
　受験会場、受けたテストの難しい易しいの偏りは関係ありません。
　（難しい易しいの偏りは等化と言う調整により受験者の得点が調整されます）
・易しい問題にたくさん正解するよりも難しい問題に正解する方が高く評価されるかもしれません。
・過去に出題された問題が再登場することもあります。
　（良質な問題は項目プールという問題をストックする場所で管理されます。テストは項目プールから出されます。）

というところかしら。

えっ、過去に出題された問題が再登場するんですか？

そうよ。

受験者の学力を測る良質な問題、1回切りで使わなくしたらもったいないじゃない？

実際に英検®のリスニング問題は5年以上前の問題が再登場することがあるわね、私もそれは確認済。

TOEICやTOEFLに関しては私は分からないけど、噂では過去の問題が再登場したって話ね。

TOEICやTOEFLの問題を受験者が持ち帰ることができないのは、過去の問題を再利用するためって考えられるわね。

あと英検®に関する興味深い話。

英検®は2016年度のリニューアルによりIRTを取り入れたの。

私と英検®受験する複数の知人で素点とCSEスコアの関係を調査したら次の図になったわ。