Can LLMs Reliably Simulate Real Students' Abilities in Mathematics and Reading Comprehension?
- 大規模言語モデル(LLM)を「模擬学生」として用いる際、実学生の平均的な能力をどの程度再現できるかを、National Assessment of Educational Progress(NAEP)の実データで調べた研究である。
- 489 件の数学・読解の多肢選択問題を用い、項目反応理論(Item Response Theory; IRT)の Rasch モデルにより、11 種の LLM と実学生を同じ能力尺度上に置いて比較している。
- 強い汎用モデルは多くの場合、平均的な児童生徒を上回りすぎる。学年を指定するプロンプトは成績を動かすが、どの学年・教科にも安定して合うモデルとプロンプトの組は見いだされなかった。
論文の面白いところ
この論文は、LLM が教育現場の評価や教材開発で「学生の代役」になりうるかを、かなり素朴な問いとして扱っている。単に正答率を見るのではなく、実学生の回答分布を基準にして、モデルが何年生相当の受験者に近いかを測る点が要である。対象は米国の NAEP から取った数学と読解の問題で、4 年生、8 年生、12 年生が含まれる。モデルには LLaMA、Mistral、Qwen、GPT-3.5-Turbo、o3-Mini、SocraticLM、LearnLM などが選ばれている。強いモデルほどよい模擬学生になる、という直観はここでは成り立たない。むしろ能力が高すぎるモデルは、平均的な学生の誤り方から離れてしまう。教育向けに調整されたモデルでも、学年別の平均性能を安定して再現するとは限らない。実用上は、教材やテスト項目を事前に試すとき、LLM の答えを「代表的な学生の反応」とみなしてよいかを毎回検査する必要がある、という控えめだが重要な結論になる。
問題設定
知的チュータリングシステム(Intelligent Tutoring System; ITS)や試験問題の予備検証では、実際の学生が新しい問題にどう反応するかを知る必要がある。しかし、学年や能力の異なる学生を十分に集めて検証することは手間がかかる。近年は LLM に「4 年生の平均的な学生として答えよ」のような指示を与え、模擬学生として用いる試みがある。この方法は速く、繰り返しやすく、教材開発の初期段階では魅力がある。問題は、その出力が本当に実学生の性能や誤答傾向に近いかである。本研究は、モデルが正解するかどうかだけでなく、実学生の平均的な能力水準にどの程度近いかを問う。研究課題は二つに整理される。第一に、通常のプロンプトで LLM は各学年の学生と比べてどの位置にあるか。第二に、学年を明示したプロンプトは性能をどれだけ動かし、その移動は実際の学年差に沿うのか、という点である。
提案手法
著者らは NAEP の公開問題から、テキストのみで構成される多肢選択問題を抽出した。最終的なデータは 489 問で、数学 249 問、読解 240 問からなる。各問題には正答だけでなく、実学生が各選択肢を選んだ割合も付いている。視覚資料を含む問題や自由記述問題は除外されており、これはモデル応答を客観的に採点し、IRT に載せるためである。IRT には Rasch モデルを用い、項目の難しさと受験者の能力の差から正答確率を表す。実学生の平均を 50 パーセンタイルに置き、LLM の回答パターンからモデルの能力値とパーセンタイル順位を推定する。プロンプト条件は、通常の問題提示に加えて、学年だけを指定するもの、学年相当の理由づけを促すもの、平均的な学生が正解しそうかを考えさせてから選ばせるものが用意されている。各モデルの最終選択肢は、出力形式のばらつきを避けるため、後続の抽出プロンプトで取り出している。
結果
通常プロンプトでは、能力の高いモデルは多くの設定で実学生の平均を大きく上回った。たとえば LLaMA3.1-70B、Qwen2.5-Math、o3-Mini、SocraticLM は数学で高いパーセンタイルを示し、特定学年の平均的な学生には近くなかった。読解でも、4 年生と 8 年生では多くのモデルが高すぎる位置に置かれた。一方で、LLaMA2-13B や Mistral-7B のように相対的に弱いモデルは、いくつかの数学設定で平均に近づいたが、これは能力が偶然合った場合に近い。学年指定プロンプトは全体としてパーセンタイルを下げる傾向を示したが、下がり方はモデルと教科によって大きく異なる。Qwen2.5-7B は読解 4 年生で 98.2 パーセンタイルから 5.2 パーセンタイルまで下がるなど、目標を越えて低くなった例がある。o3-Mini や LLaMA3.1-70B のように、学年指定をしても高止まりするモデルもあった。平均への近さは改善する場合もあるが、単一のモデル・プロンプト組が全学年と全教科で安定して使えるという結果は得られていない。
具体例
たとえば 8 年生向けの数学問題として、「217 の数字 1 を 5 に置き換えると、元の数よりいくつ大きくなるか」という問いがある。選択肢は 4、40、44、400 で、正答は 40 である。NAEP の実学生では、この問題に 72.2% が正答し、11.7% は 4、11.3% は 44 を選んでいる。通常の LLM は位取りを正しく処理し、ほぼ迷わず 40 を選ぶかもしれない。この場合、問題を解く能力としては高いが、平均的な 8 年生の反応を模擬しているとは言いにくい。学年指定プロンプトを与えると、モデルは「1 が 5 になるから差は 4」と考える学生や、「217 から 257 への変化」を正しく計算する学生を想定して答える可能性がある。望ましい模擬学生は、単に誤答を混ぜるのではなく、実学生がどの選択肢で迷いやすいかに近い分布を示す必要がある。この論文の枠組みでは、そのモデルの一連の回答を Rasch モデルに入れ、実学生の 50 パーセンタイルに近いかを確認する。したがって、1 問で正しいかどうかよりも、問題集合全体で平均的な学生らしい難易度反応を示すかが判定の中心になる。