D-GEN: Automatic Distractor Generation and Evaluation for Reliable Assessment of Generative Models

生成日:

D-GEN: Automatic Distractor Generation and Evaluation for Reliable Assessment of Generative Models

Abstract(日本語訳)

自由記述型の生成を用いて生成モデルを評価することは、応答形式が一貫しないため難しい。多肢選択式(MC)評価はこの問題を緩和するが、質の高い distractor を作るには時間と労力がかかる。本論文は、自由記述型データを MC 形式へ変換する初のオープンソース distractor generator model である D-GEN を導入する。distractor の質を評価するため、本論文は二つの新しい方法を提案する。第一は ranking alignment であり、生成された distractor が人手で作られた ground-truth distractor の識別力を保つことを確認する。第二は entropy analysis であり、モデルの信頼度分布を比較する。本論文の結果は、D-GEN が順位の一貫性を保ち(Spearman の ρ は 0.99、Kendall の τ は 0.94)、ground-truth distractor のエントロピー分布に近いことを示している。人手評価も、流暢性、一貫性、紛らわしさ、誤答としての明確さをさらに確認している。本研究は、自動評価を備えた堅牢で効率的な distractor 生成を進め、MC 評価の新しい基準を示すものである。

論文の面白いところ

LLM の評価では、自由記述で答えさせる形式と、多肢選択で答えさせる形式が併存している。自由記述は自然なタスクに近いが、正解抽出の規則に左右されやすい。多肢選択式は logits から選択肢の確率を直接読めるため、評価の処理は安定する。その一方で、正解以外の選択肢を作る作業が重い。単に間違った文を置けばよいのではなく、正解と同じ形式を保ち、受験者やモデルをある程度迷わせ、しかも正解ではない必要がある。

本論文の関心は、この distractor 作成を LLM で自動化する点にある。さらに、生成した distractor をどのように測るかにも紙幅を割いている。BLEU や ROUGE のような文字列一致では、選択肢としての紛らわしさは十分に測れない。D-GEN は、モデル群の順位が元の MMLU と同じように出るか、また各選択肢への確率の散らばりが元の distractor と近いかを見る。この設計により、単なる生成品質ではなく、ベンチマークとしての働きに目を向けている。地味ではあるが、評価データを作る実務に近い問題を扱っている。

問題設定

対象は、自由記述型の問題と正解を、多肢選択式の問題に変換する処理である。入力として、問題文と正解が与えられる。出力として、正解以外の三つの distractor を生成し、正解を含む四択問題を構成する。MMLU のような既存の MC benchmark では人手の distractor があるが、GSM8K や HumanEval のような自由記述型の benchmark では、そのままでは同じ方法で選択肢評価を行いにくい。

難しいのは、distractor の条件が一つではないことである。文法的に自然であるだけでは足りない。問題文と関係があり、正解と似た種類の答えであり、モデルが選ぶ可能性があり、それでも誤りでなければならない。特に要約や commonsense reasoning では、正解と誤答の境界が曖昧になりやすい。たとえば「あり得る結果」を問う問題では、別のあり得る結果を作ってしまうと、それは distractor ではなく別解になる。この論文は、そのような質を、生成モデル自身の出力だけでなく評価方法の側からも確認しようとしている。

提案手法

D-GEN は、Llama 系の instruction model を distractor 生成に特化してファインチューニングしたモデルである。訓練には MMLU の auxiliary training set を用いる。このデータは ARC、RACE、MC TEST、OpenBookQA などに由来する約 99.8K 件の多肢選択問題を含む。モデルは、問題文と正解を受け取り、三つの distractor のリストを出すように学習する。8B 版では full fine-tuning を行い、70B 版では LoRA を用いる。論文中の主な実験は 70B 版を中心に報告され、8B 版と 70B 版はいずれも公開されている。

生成後には、自動的な修正処理を挟む。三つの distractor が互いに重複していないこと、正解と重なっていないことを確認し、条件を満たさない場合は再生成する。この処理は単純だが、MC データでは重要である。選択肢が重複したり、正解と同じ内容を含んだりすると、評価そのものが壊れるためである。評価面では、元の MMLU の distractor を D-GEN の distractor に置き換えた MMLU-DGEN を作り、21 個のオープンソースモデルを 0-shot と 5-shot で評価する。元の MMLU と MMLU-DGEN でモデル順位が近いかを調べる Ranking Alignment と、選択肢 A から D への予測確率のエントロピーが近いかを調べる Entropy Analysis が、中心的な検証方法である。

結果

MMLU と MMLU-DGEN の比較では、モデル順位はかなりよく保たれた。42 設定、すなわち 21 モデルに 0-shot と 5-shot を合わせた設定で、全体の Spearman 相関は 0.9918、Kendall Tau は 0.9413 であった。分野別でも Spearman 相関は 0.9778 から 0.9901 の範囲にあり、人文学、社会科学、STEM、その他のいずれでも高い一致が見られる。正解率の差は平均で MMLU-DGEN の方が 0.05 低く、生成 distractor は元の distractor より少し難しい傾向がある。ただし、全体の難易度を大きく変えるほどではない。

Entropy Analysis では、Llama-3.3-70B-Instruct、Qwen2.5-72B-Instruct、Mixtral-8x7B-Instruct-v0.1 を用いて、元の MMLU と MMLU-DGEN のエントロピーを比較している。Qwen と Mixtral では、全分野で有意な差は見られなかった。Llama では社会科学でのみ有意差があり、p 値は 0.0342 と報告されている。これは、生成 distractor がモデルの確信度に与える影響が、人手 distractor とおおむね近いことを示す。FLAN 由来の七つのタスクでの人手評価では、数学が最も安定し、fluency、coherence、distracting ability、incorrectness の平均がほぼ 5 に近い。structure-to-text と読解も良好である一方、要約、commonsense reasoning、翻訳では低評価の例が増えた。特に commonsense reasoning では、もっともらしいが実は正しい選択肢を作ってしまう誤りが問題になる。

具体例

たとえば、数学の問題として「-22q - q = -14375 + 13455 を満たす q を求めよ」という入力があるとする。正解は 40 である。D-GEN はこの問題文と正解を受け取り、10、25、35 のような誤答候補を出す。これらは計算の途中で符号を誤る、割り算の値を取り違える、といった典型的な誤りに近く、選択肢としては自然である。期待される MC 問題では、40 が正解として残り、ほかの三つは一見すると同じ種類の数値解に見えるが、代入すると式を満たさない。

同じ仕組みは、表形式データを文にする structure-to-text にも使われる。たとえば「店名は The Eagle、種類は coffee shop、料理は Chinese、価格帯は high、評価は average、場所は riverside、近くに Burger King がある」という入力に対し、正解文は「The Eagle は Burger King 近くの riverside にある Chinese coffee shop である」となる。D-GEN は、価格帯を moderate に変える、評価を high に変える、料理を American に変える、というような distractor を作る。間違えやすい点は、文として自然にしすぎるあまり、入力の別の正しい言い換えを作ってしまうことである。D-GEN の修正処理と人手評価は、この「自然だが正しくない」という狭い条件をどの程度満たせるかを確認するために置かれている。