MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark

生成日: 2026-05-24 02:20

# MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark

- MMLU-CF は、MMLU 型の多肢選択式評価におけるベンチマーク汚染を抑えるために作られた、20,000 問規模の world knowledge 評価ベンチマークである。
- 2000 億超の公開 Web 文書から抽出した問題を、品質確認、難易度調整、言い換え、選択肢の並べ替え、選択肢置換によって処理し、公開 validation set と非公開 test set に分ける。
- 40 を超える LLM で評価したところ、元の MMLU に比べて多くのモデルの正答率が下がり、順位も変わった。評価値に記憶の影響が混じっていた可能性を示す結果である。

## Abstract（日本語訳）

Massive Multitask Language Understanding（MMLU）のような多肢選択式問題（MCQ）データセットは、大規模言語モデル（LLM）の常識、理解、問題解決能力を評価するために広く用いられている。しかし、これらのベンチマークがオープンソースであることと、LLM の学習データの出所が広範であることにより、ベンチマーク汚染は避けがたく生じており、著者らの汚染評価実験でも調べられているように、評価の信頼性を損なっている。この問題を緩和するため、著者らは MMLU-CF と呼ぶ、汚染のない MCQ ベンチマークを提案する。これは、意図しないデータ汚染と意図的なデータ汚染の双方を避けることで、LLM の世界知識理解を再評価するものである。意図しないデータ汚染を抑えるため、著者らは 2000 億を超える Web ページから、より広い領域にわたって問題を収集し、専用に設計した 3 つの汚染除去規則を適用する。意図的なデータ汚染を防ぐため、ベンチマークを、難易度と分野分布が近い validation set と test set に分割する。信頼できる結果を保つため test set は非公開のままとし、透明性を高め、独立した評価を容易にするため validation set は公開する。著者らは MMLU-CF 上で 40 を超える主要な LLM を評価した。元の MMLU と比べると、LLM の性能は大きく低下しただけでなく、性能順位もかなり変化した。このことは、汚染のない、より公正な評価基準を確立するうえで、著者らの方法が有効であることを示している。

## 論文の面白いところ

この論文の中心は、新しい難問集を作ることではなく、評価がどれだけ記憶に左右されるかを制度として扱った点にある。MMLU は LLM の一般知識を測る標準的なベンチマークとして使われてきたが、公開された問題は、Web 経由で事前学習データに混入しやすい。論文は汚染を、偶然に学習データへ入る「意図しない汚染」と、ベンチマークを意図的に学習させる「意図的な汚染」に分ける。この区別により、単に問題を新しくするだけでは不十分で、公開部分と非公開部分の設計も必要になることが明確になる。

興味深いのは、問題文の言い換えや選択肢の並べ替えという比較的単純な処理でも、モデルの点数が下がることである。人間にとって同義の問題であれば、正答能力はほぼ変わらないはずである。そこで点数が下がるなら、少なくとも一部のモデルは、問題の意味理解だけでなく、表面形や選択肢順の記憶にも依存していた可能性がある。論文中の Figure 1 では、MMLU の問題文だけを与えたとき、ある LLM が元の選択肢と答えまで再現する例が示される。評価の対象が知識理解なのか、ベンチマークの再生なのかを分ける、素朴だが重要な観察である。

もう一つの面白さは、公開 validation set と非公開 test set を同じ分布に近づけ、その差分を将来の汚染検出に使う点である。現在のモデルでは両者の性能差は小さい。今後、公開 validation set が学習データに混じれば、その差が広がる可能性がある。これは、ベンチマークを一度作って終わりにせず、公開された部分がいつ汚れていくかを観察する仕組みでもある。

## 問題設定

LLM の評価では、MMLU、GSM8K、HumanEval などのベンチマークが、モデル比較の共通尺度として用いられる。ところが、近年の LLM は Web、コードリポジトリ、公開データセット、論文付録などを広く学習しており、評価用の問題が学習データに入っている可能性を完全には排除しにくい。問題が混入している場合、モデルの正答率は、未知の問題を解く能力ではなく、見たことのある問題を覚えている能力を含む値になる。

本論文が対象とするのは、世界知識を問う多肢選択式問題である。MMLU は 57 タスクを含み、分野横断的に LLM を評価できるため広く使われている。一方で、問題が公開されているため、後発のモデルほど学習時に触れる可能性が高い。既存の汚染対策ベンチマークには、最近の情報から動的に問題を作るもの、対話的に評価するもの、コードや算数のような特定分野に限るものがある。しかし、広い分野の世界知識を、低い再評価コストで、比較的安定した難易度分布のまま評価する仕組みは限られていた。

したがって、この論文の問題設定は、公開性と信頼性の間の調整である。研究者が手元で検証できる公開データは必要だが、全問題を公開すれば、将来のモデルに混入しやすくなる。MMLU-CF は、公開 validation set と非公開 test set を分けることで、この緊張を処理しようとする。

## 提案手法

MMLU-CF は、全体で 20,000 問から成る多肢選択式ベンチマークである。著者らは、2000 億超の公開 Web 文書から 270 万件の MCQ を抽出し、重複除去、英語問題への限定、選択肢数や解答形式の正規化などを行って、候補を 166 万件まで絞る。さらに GPT-4o を用いて MMLU の難易度分布を基準化し、分野の偏りを抑えながら 50,000 問をサンプリングする。

品質確認では、GPT-4o、Gemini、Claude を用い、文脈の明確さ、論理的一貫性、事実性、選択肢の排他性、正答の有無を確認する。安全性についても、ヘイト、性的内容、自傷、暴力に関する観点で確認する。平均スコアが一定以上の問題を残し、さらに意味的に同じ問題が test set と validation set にまたがらないように冗長性を調べる。人手による検査も行われており、付録では難易度判定、品質・安全性判定、言い換えの妥当性について高い一致が報告されている。

汚染除去の処理は 3 つである。第一に、GPT-4o によって問題文を同じ意味に言い換える。第二に、選択肢の順序を並べ替える。ただし、「上記すべて」や「該当なし」のような選択肢が最後にある場合には、扱いを制限する。第三に、50% の確率で選択肢の一つを "None of the other choices" に置き換える。この第三の規則は難易度にも影響しうるが、表面記憶による正答をさらに難しくする。

最後に、10,000 問を非公開 test set、10,000 問を公開 validation set とする。両者は難易度と分野分布が近くなるように分割される。公開 validation set は透明性と独立検証のために用い、非公開 test set は leaderboard 的な信頼性を保つために用いる。この二層構成が、MMLU-CF の評価設計の要である。

## 結果

論文は、OpenAI o1、GPT-4o、DeepSeek-R1、DeepSeek-V3、Qwen、Llama、Phi、Gemma、Mixtral など、40 を超えるモデルを OpenCompass 上で評価している。5-shot 設定では、OpenAI o1 が MMLU で 92.3%、MMLU-CF で 80.3% となり、12.0 ポイント下がる。DeepSeek-R1 は 90.8% から 76.3%、GPT-4o は 88.0% から 73.4% へ下がる。上位モデルの順位は大きくは崩れないが、中位以下を含めると順位変動が目立つ。

MMLU と MMLU-CF の差は、単に難しい問題を集めたためだけではない。著者らは、MMLU と MMLU-CF の双方に対して、言い換え、選択肢並べ替え、選択肢置換の規則を段階的に適用する ablation を行っている。GPT-4o、GPT-3.5-Turbo、Llama-3.1-8B のいずれでも、規則を加えるごとに性能は下がる。特に MMLU に同じ規則を適用したときの低下が MMLU-CF より大きく、元の MMLU により強い汚染の影響があることを示唆する。

汚染分析では、MMLU と MMLU-CF から各 1,000 件を取り、40 モデルの応答が元の選択肢とどの程度一致するかを調べる。MMLU では、一部のモデルが 1% から 5% の割合で元選択肢を再現した。MMLU-CF では、全モデルで一致率が 0.2% 未満にとどまったと報告される。これは、少なくとも調べた範囲では、MMLU-CF が既存モデルに対して表面記憶の影響を受けにくいことを示す。

分野別の結果も実用上の示唆を持つ。MMLU-CF の test set では、Computer Science、Health、History が比較的大きな割合を占める。GPT-4o は平均で高いが、Computer Science では Qwen2.5-32B が強いなど、分野ごとの得手不得手が見える。モデル選定においては、総合点だけでなく、利用分野に近い小分類の結果を見る必要がある。

## 具体例

たとえば、元の公開 Web 上に「h*x = x*h という規則は何と呼ばれるか」という数学の多肢選択問題があるとする。答えは commutativity rule、すなわち交換法則であり、元の選択肢の順序まで学習データに入っていれば、モデルは問題を深く読まずに答えられるかもしれない。MMLU-CF の処理では、まず問題文を「h*x = x*h という規則の用語は何か」のように言い換える。次に、選択肢の順番を変え、必要に応じて一つの選択肢を "None of the other choices" に置き換える。

このとき期待されるモデルの振る舞いは、文字列として見覚えがあるかどうかではなく、演算の左右を入れ替えても値が変わらないという性質を理解し、交換法則を選ぶことである。人間の受験者なら、言い換えや選択肢順の変更だけで大きく不利になるとは考えにくい。一方、元の問題文と選択肢順を記憶していたモデルは、選択肢が動いた時点で誤答しやすくなる。さらに "None of the other choices" が入ると、正答が置換された場合と誤答が置換された場合の両方を見分ける必要がある。ここで測られるのは、問題番号や選択肢列の再現ではなく、問われている概念を使って選べるかどうかである。

MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark

MMLU-CF は、MMLU 型の多肢選択式評価におけるベンチマーク汚染を抑えるために作られた、20,000 問規模の world knowledge 評価ベンチマークである。
2000 億超の公開 Web 文書から抽出した問題を、品質確認、難易度調整、言い換え、選択肢の並べ替え、選択肢置換によって処理し、公開 validation set と非公開 test set に分ける。
40 を超える LLM で評価したところ、元の MMLU に比べて多くのモデルの正答率が下がり、順位も変わった。評価値に記憶の影響が混じっていた可能性を示す結果である。

Abstract（日本語訳）

Massive Multitask Language Understanding（MMLU）のような多肢選択式問題（MCQ）データセットは、大規模言語モデル（LLM）の常識、理解、問題解決能力を評価するために広く用いられている。しかし、これらのベンチマークがオープンソースであることと、LLM の学習データの出所が広範であることにより、ベンチマーク汚染は避けがたく生じており、著者らの汚染評価実験でも調べられているように、評価の信頼性を損なっている。この問題を緩和するため、著者らは MMLU-CF と呼ぶ、汚染のない MCQ ベンチマークを提案する。これは、意図しないデータ汚染と意図的なデータ汚染の双方を避けることで、LLM の世界知識理解を再評価するものである。意図しないデータ汚染を抑えるため、著者らは 2000 億を超える Web ページから、より広い領域にわたって問題を収集し、専用に設計した 3 つの汚染除去規則を適用する。意図的なデータ汚染を防ぐため、ベンチマークを、難易度と分野分布が近い validation set と test set に分割する。信頼できる結果を保つため test set は非公開のままとし、透明性を高め、独立した評価を容易にするため validation set は公開する。著者らは MMLU-CF 上で 40 を超える主要な LLM を評価した。元の MMLU と比べると、LLM の性能は大きく低下しただけでなく、性能順位もかなり変化した。このことは、汚染のない、より公正な評価基準を確立するうえで、著者らの方法が有効であることを示している。

論文の面白いところ

この論文の中心は、新しい難問集を作ることではなく、評価がどれだけ記憶に左右されるかを制度として扱った点にある。MMLU は LLM の一般知識を測る標準的なベンチマークとして使われてきたが、公開された問題は、Web 経由で事前学習データに混入しやすい。論文は汚染を、偶然に学習データへ入る「意図しない汚染」と、ベンチマークを意図的に学習させる「意図的な汚染」に分ける。この区別により、単に問題を新しくするだけでは不十分で、公開部分と非公開部分の設計も必要になることが明確になる。

興味深いのは、問題文の言い換えや選択肢の並べ替えという比較的単純な処理でも、モデルの点数が下がることである。人間にとって同義の問題であれば、正答能力はほぼ変わらないはずである。そこで点数が下がるなら、少なくとも一部のモデルは、問題の意味理解だけでなく、表面形や選択肢順の記憶にも依存していた可能性がある。論文中の Figure 1 では、MMLU の問題文だけを与えたとき、ある LLM が元の選択肢と答えまで再現する例が示される。評価の対象が知識理解なのか、ベンチマークの再生なのかを分ける、素朴だが重要な観察である。

もう一つの面白さは、公開 validation set と非公開 test set を同じ分布に近づけ、その差分を将来の汚染検出に使う点である。現在のモデルでは両者の性能差は小さい。今後、公開 validation set が学習データに混じれば、その差が広がる可能性がある。これは、ベンチマークを一度作って終わりにせず、公開された部分がいつ汚れていくかを観察する仕組みでもある。

問題設定

LLM の評価では、MMLU、GSM8K、HumanEval などのベンチマークが、モデル比較の共通尺度として用いられる。ところが、近年の LLM は Web、コードリポジトリ、公開データセット、論文付録などを広く学習しており、評価用の問題が学習データに入っている可能性を完全には排除しにくい。問題が混入している場合、モデルの正答率は、未知の問題を解く能力ではなく、見たことのある問題を覚えている能力を含む値になる。

本論文が対象とするのは、世界知識を問う多肢選択式問題である。MMLU は 57 タスクを含み、分野横断的に LLM を評価できるため広く使われている。一方で、問題が公開されているため、後発のモデルほど学習時に触れる可能性が高い。既存の汚染対策ベンチマークには、最近の情報から動的に問題を作るもの、対話的に評価するもの、コードや算数のような特定分野に限るものがある。しかし、広い分野の世界知識を、低い再評価コストで、比較的安定した難易度分布のまま評価する仕組みは限られていた。

したがって、この論文の問題設定は、公開性と信頼性の間の調整である。研究者が手元で検証できる公開データは必要だが、全問題を公開すれば、将来のモデルに混入しやすくなる。MMLU-CF は、公開 validation set と非公開 test set を分けることで、この緊張を処理しようとする。

提案手法

MMLU-CF は、全体で 20,000 問から成る多肢選択式ベンチマークである。著者らは、2000 億超の公開 Web 文書から 270 万件の MCQ を抽出し、重複除去、英語問題への限定、選択肢数や解答形式の正規化などを行って、候補を 166 万件まで絞る。さらに GPT-4o を用いて MMLU の難易度分布を基準化し、分野の偏りを抑えながら 50,000 問をサンプリングする。

品質確認では、GPT-4o、Gemini、Claude を用い、文脈の明確さ、論理的一貫性、事実性、選択肢の排他性、正答の有無を確認する。安全性についても、ヘイト、性的内容、自傷、暴力に関する観点で確認する。平均スコアが一定以上の問題を残し、さらに意味的に同じ問題が test set と validation set にまたがらないように冗長性を調べる。人手による検査も行われており、付録では難易度判定、品質・安全性判定、言い換えの妥当性について高い一致が報告されている。

汚染除去の処理は 3 つである。第一に、GPT-4o によって問題文を同じ意味に言い換える。第二に、選択肢の順序を並べ替える。ただし、「上記すべて」や「該当なし」のような選択肢が最後にある場合には、扱いを制限する。第三に、50% の確率で選択肢の一つを "None of the other choices" に置き換える。この第三の規則は難易度にも影響しうるが、表面記憶による正答をさらに難しくする。

最後に、10,000 問を非公開 test set、10,000 問を公開 validation set とする。両者は難易度と分野分布が近くなるように分割される。公開 validation set は透明性と独立検証のために用い、非公開 test set は leaderboard 的な信頼性を保つために用いる。この二層構成が、MMLU-CF の評価設計の要である。

結果

論文は、OpenAI o1、GPT-4o、DeepSeek-R1、DeepSeek-V3、Qwen、Llama、Phi、Gemma、Mixtral など、40 を超えるモデルを OpenCompass 上で評価している。5-shot 設定では、OpenAI o1 が MMLU で 92.3%、MMLU-CF で 80.3% となり、12.0 ポイント下がる。DeepSeek-R1 は 90.8% から 76.3%、GPT-4o は 88.0% から 73.4% へ下がる。上位モデルの順位は大きくは崩れないが、中位以下を含めると順位変動が目立つ。

MMLU と MMLU-CF の差は、単に難しい問題を集めたためだけではない。著者らは、MMLU と MMLU-CF の双方に対して、言い換え、選択肢並べ替え、選択肢置換の規則を段階的に適用する ablation を行っている。GPT-4o、GPT-3.5-Turbo、Llama-3.1-8B のいずれでも、規則を加えるごとに性能は下がる。特に MMLU に同じ規則を適用したときの低下が MMLU-CF より大きく、元の MMLU により強い汚染の影響があることを示唆する。

汚染分析では、MMLU と MMLU-CF から各 1,000 件を取り、40 モデルの応答が元の選択肢とどの程度一致するかを調べる。MMLU では、一部のモデルが 1% から 5% の割合で元選択肢を再現した。MMLU-CF では、全モデルで一致率が 0.2% 未満にとどまったと報告される。これは、少なくとも調べた範囲では、MMLU-CF が既存モデルに対して表面記憶の影響を受けにくいことを示す。

分野別の結果も実用上の示唆を持つ。MMLU-CF の test set では、Computer Science、Health、History が比較的大きな割合を占める。GPT-4o は平均で高いが、Computer Science では Qwen2.5-32B が強いなど、分野ごとの得手不得手が見える。モデル選定においては、総合点だけでなく、利用分野に近い小分類の結果を見る必要がある。

具体例

たとえば、元の公開 Web 上に「hx = xh という規則は何と呼ばれるか」という数学の多肢選択問題があるとする。答えは commutativity rule、すなわち交換法則であり、元の選択肢の順序まで学習データに入っていれば、モデルは問題を深く読まずに答えられるかもしれない。MMLU-CF の処理では、まず問題文を「hx = xh という規則の用語は何か」のように言い換える。次に、選択肢の順番を変え、必要に応じて一つの選択肢を "None of the other choices" に置き換える。

このとき期待されるモデルの振る舞いは、文字列として見覚えがあるかどうかではなく、演算の左右を入れ替えても値が変わらないという性質を理解し、交換法則を選ぶことである。人間の受験者なら、言い換えや選択肢順の変更だけで大きく不利になるとは考えにくい。一方、元の問題文と選択肢順を記憶していたモデルは、選択肢が動いた時点で誤答しやすくなる。さらに "None of the other choices" が入ると、正答が置換された場合と誤答が置換された場合の両方を見分ける必要がある。ここで測られるのは、問題番号や選択肢列の再現ではなく、問われている概念を使って選べるかどうかである。