CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges

生成日: 2026-05-24 02:20

# CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges

- LLM-as-a-Judge のペア比較では、回答の中身ではなく、表示位置や A/B などの選択肢トークンに判断が引かれることがある。
- CalibraEval は、正解ラベルを使わず、選択肢の位置とトークンを入れ替えたときの予測分布から、偏りを補正する写像を推定する。
- RewardBench、MTBench、PreferenceBench で、複数の LLM に対して判断の一貫性を高め、しばしば精度も改善した。

## Abstract（日本語訳）

生成された自然言語の品質を評価する自動評価ツールとして大規模言語モデル（LLM）を用いる方法は、「LLMs-as-Judges」として知られ、有望な能力を示し、急速に広く注目されている。しかし、候補応答のペア比較に適用されると、LLM ベースの評価器はしばしば選択バイアスを示す。具体的には、選択肢の位置や ID トークンを入れ替えると判断が一貫しなくなり、評価結果の有効性と公平性が損なわれることがある。この課題に対処するため、本論文では、推論時に選択バイアスを軽減する新しいラベル不要の手法 CalibraEval を導入する。具体的には、CalibraEval は、観測された予測分布をバイアスのない予測分布に合わせるよう調整する最適化タスクとして、バイアス除去を定式化する。この最適化問題を解くために、非パラメトリックな順序保存アルゴリズム（NOA）を提案する。このアルゴリズムは、モデルの予測分布間にある部分順序関係を利用し、明示的なラベルや厳密な数学的関数モデリングを不要にする。複数の代表的なベンチマークにおける LLM の実証評価は、CalibraEval が選択バイアスを有効に軽減し、既存のバイアス除去手法と比べて性能を改善することを示している。本研究は、より頑健で偏りの少ない自動評価の枠組みを構築する一歩であり、AI による評価の信頼性向上につながるものである。コードは https://github.com/CSHaitao/CalibraEval で公開されている。

## 論文の面白いところ

この論文は、LLM を評価者として使うときの、地味だが実務上大きい問題を扱っている。多くの評価では、二つの回答を並べて「どちらがよいか」を LLM に選ばせるが、同じ回答でも先に置かれた場合と後に置かれた場合で結果が変わることがある。さらに、内容は同じでも、A や B といった ID トークンの違いに確率が引かれる場合もある。CalibraEval は、この不安定さを「回答の質そのもの」と「表示形式から来る偏り」の混合として捉える。

興味深い点は、正解ラベルを用いずに補正を行うところである。人手でどちらが正しいかを付け直すのではなく、同じ比較を、位置の入れ替え、トークンの入れ替えという複数の形で観測する。偏りのない評価者なら、それらの変形後も同じ回答を選ぶはずである。この性質を最適化目標にして、観測された確率を補正後の確率へ写す関数を学ぶ。評価の後処理に近いので、評価器となる LLM の再学習を必要としない点も扱いやすい。

## 問題設定

対象は、LLM-as-a-Judge によるペア比較評価である。入力として、評価指示、候補応答 1、候補応答 2 が与えられ、LLM は A または B のような選択肢トークンに対する確率を出す。理想的には、この確率は応答内容の優劣だけを反映すべきである。しかし実際には、第一位置を好む、特定のトークンを好む、といった選択バイアスが混ざる。

論文では、位置バイアスとトークンバイアスをまとめて selection bias と呼ぶ。従来の単純な対策としては、入れ替え後に判断が食い違う例を同点として扱う方法があるが、この方法では評価情報が失われる。複数エージェントで議論させる方法もあるが、推論コストが増す。したがって、元の評価信号をできるだけ残しつつ、表示形式に由来する偏りだけを弱める方法が必要になる。

## 提案手法

CalibraEval は、観測された予測確率を、偏りを除いた予測確率へ変換する較正関数を求める。比較対象を o1 と o2、選択肢トークンを t1 と t2 とし、通常の並びに加えて、位置を入れ替えた場合、トークンを入れ替えた場合、その両方を入れ替えた場合を考える。偏りのない評価者なら、o1 がよいと判断する確率は、これらの表現変更に対して整合的でなければならない。

この整合性を損失関数として定め、較正関数を最適化する。第一の項は、ID トークンを入れ替えても判断が変わらないことを促す。第二の項は、表示位置を入れ替えても判断が変わらないことを促す。第三の項は、すべてを 0.5 に潰してしまう自明な解を避けるための正則化である。

実際の解法として、論文は非パラメトリック順序保存アルゴリズム（Non-parametric Order-preserving Algorithm; NOA）を用いる。これは、同じ ID トークンについて、観測確率が高い例は補正後の確率も高いはずだという順序関係を保つ。各サンプルから得た確率を並べ、順序を崩さない離散的な写像を勾配降下で求める。その後、Pool Adjacent Violators Algorithm（PAVA）により、未観測の確率にも適用できる単調な区分線形関数へ拡張する。

## 結果

実験は RewardBench、MTBench、PreferenceBench の三つのベンチマークで行われた。評価対象の LLM は Llama-3-8B、Llama-3.1-8B、Qwen-14B、Qwen-72B、ChatGPT、GPT-4o である。比較手法には、バイアスを避けるようプロンプトで指示する Debiasing Instruct、Contextual Calibration、Domain-context Calibration、Pride が含まれる。

主な指標は、選択肢の位置やトークンを入れ替えたときの判断一貫性を測る Fleiss's Kappa と Intraclass Correlation Coefficient（ICC）である。CalibraEval は、多くのモデルとデータセットでこれらの一貫性指標を改善した。たとえば Qwen-72B の平均では、未補正の Kappa が 77.47、ICC(2,k) が 92.63 であったのに対し、CalibraEval は Kappa 79.98、ICC(2,k) 96.24 となった。GPT-4o でも平均 ICC(2,k) は 93.77 から 96.19 に上がっている。

参照ラベルを用いた評価でも、CalibraEval は recall の不均衡を示す RStd を下げ、精度を上げる傾向を示した。ChatGPT の RewardBench では、RStd が 16.79 から 5.51 へ下がり、精度は 65.27 から 67.13 へ上がった。著者らは、選択バイアスが評価判断を乱し、結果として精度も下げている可能性を指摘している。補正の効果は、プロンプトテンプレートを変えた場合や、推定に使うデータ量を減らした場合にも残った。10% のデータだけでも、ChatGPT では全データを使った場合の改善の 85% 超を得たと報告されている。

## 具体例

ある要約評価で、モデルに「次の二つの要約のうち、元記事をより正確に要約しているものを選べ」と尋ねる場面を考える。A には、記事の主要な事実を保っているが少し短い要約が入り、B には、読みやすいが一つ重要な数値を誤っている要約が入る。評価器 LLM が本来見るべきなのは、どちらが元記事に忠実かという内容である。しかし、同じ二つを B、A の順に並べ替えたとき、あるいは選択肢トークンを 1、2 のように変えたときに、確率が大きく動くことがある。

CalibraEval では、この同じ比較を複数の表記で評価器に出し、それぞれの A/B 確率を集める。もし第一位置を好む傾向があれば、良い要約が後ろに置かれたときだけ確率が下がる。もし A というトークンを好む傾向があれば、内容が B 側に移ったときに判断が鈍る。NOA は、これらの変動を、内容に由来する確率と表示形式に由来する偏りに分けるような補正関数を推定する。期待される出力は、単に A/B を選ぶ結果ではなく、入れ替え後も同じ要約を選びやすい、より安定した確率である。間違えやすいのは、両方の要約が拮抗している場合で、このとき補正がすべてを同点に近づけすぎると評価信号が失われる。論文の損失関数に正則化項が入っているのは、そのような潰れた解を避けるためである。

CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges

LLM-as-a-Judge のペア比較では、回答の中身ではなく、表示位置や A/B などの選択肢トークンに判断が引かれることがある。
CalibraEval は、正解ラベルを使わず、選択肢の位置とトークンを入れ替えたときの予測分布から、偏りを補正する写像を推定する。
RewardBench、MTBench、PreferenceBench で、複数の LLM に対して判断の一貫性を高め、しばしば精度も改善した。

Abstract（日本語訳）

生成された自然言語の品質を評価する自動評価ツールとして大規模言語モデル（LLM）を用いる方法は、「LLMs-as-Judges」として知られ、有望な能力を示し、急速に広く注目されている。しかし、候補応答のペア比較に適用されると、LLM ベースの評価器はしばしば選択バイアスを示す。具体的には、選択肢の位置や ID トークンを入れ替えると判断が一貫しなくなり、評価結果の有効性と公平性が損なわれることがある。この課題に対処するため、本論文では、推論時に選択バイアスを軽減する新しいラベル不要の手法 CalibraEval を導入する。具体的には、CalibraEval は、観測された予測分布をバイアスのない予測分布に合わせるよう調整する最適化タスクとして、バイアス除去を定式化する。この最適化問題を解くために、非パラメトリックな順序保存アルゴリズム（NOA）を提案する。このアルゴリズムは、モデルの予測分布間にある部分順序関係を利用し、明示的なラベルや厳密な数学的関数モデリングを不要にする。複数の代表的なベンチマークにおける LLM の実証評価は、CalibraEval が選択バイアスを有効に軽減し、既存のバイアス除去手法と比べて性能を改善することを示している。本研究は、より頑健で偏りの少ない自動評価の枠組みを構築する一歩であり、AI による評価の信頼性向上につながるものである。コードは https://github.com/CSHaitao/CalibraEval で公開されている。

論文の面白いところ

この論文は、LLM を評価者として使うときの、地味だが実務上大きい問題を扱っている。多くの評価では、二つの回答を並べて「どちらがよいか」を LLM に選ばせるが、同じ回答でも先に置かれた場合と後に置かれた場合で結果が変わることがある。さらに、内容は同じでも、A や B といった ID トークンの違いに確率が引かれる場合もある。CalibraEval は、この不安定さを「回答の質そのもの」と「表示形式から来る偏り」の混合として捉える。

興味深い点は、正解ラベルを用いずに補正を行うところである。人手でどちらが正しいかを付け直すのではなく、同じ比較を、位置の入れ替え、トークンの入れ替えという複数の形で観測する。偏りのない評価者なら、それらの変形後も同じ回答を選ぶはずである。この性質を最適化目標にして、観測された確率を補正後の確率へ写す関数を学ぶ。評価の後処理に近いので、評価器となる LLM の再学習を必要としない点も扱いやすい。

問題設定

対象は、LLM-as-a-Judge によるペア比較評価である。入力として、評価指示、候補応答 1、候補応答 2 が与えられ、LLM は A または B のような選択肢トークンに対する確率を出す。理想的には、この確率は応答内容の優劣だけを反映すべきである。しかし実際には、第一位置を好む、特定のトークンを好む、といった選択バイアスが混ざる。

論文では、位置バイアスとトークンバイアスをまとめて selection bias と呼ぶ。従来の単純な対策としては、入れ替え後に判断が食い違う例を同点として扱う方法があるが、この方法では評価情報が失われる。複数エージェントで議論させる方法もあるが、推論コストが増す。したがって、元の評価信号をできるだけ残しつつ、表示形式に由来する偏りだけを弱める方法が必要になる。

提案手法

CalibraEval は、観測された予測確率を、偏りを除いた予測確率へ変換する較正関数を求める。比較対象を o1 と o2、選択肢トークンを t1 と t2 とし、通常の並びに加えて、位置を入れ替えた場合、トークンを入れ替えた場合、その両方を入れ替えた場合を考える。偏りのない評価者なら、o1 がよいと判断する確率は、これらの表現変更に対して整合的でなければならない。

この整合性を損失関数として定め、較正関数を最適化する。第一の項は、ID トークンを入れ替えても判断が変わらないことを促す。第二の項は、表示位置を入れ替えても判断が変わらないことを促す。第三の項は、すべてを 0.5 に潰してしまう自明な解を避けるための正則化である。

実際の解法として、論文は非パラメトリック順序保存アルゴリズム（Non-parametric Order-preserving Algorithm; NOA）を用いる。これは、同じ ID トークンについて、観測確率が高い例は補正後の確率も高いはずだという順序関係を保つ。各サンプルから得た確率を並べ、順序を崩さない離散的な写像を勾配降下で求める。その後、Pool Adjacent Violators Algorithm（PAVA）により、未観測の確率にも適用できる単調な区分線形関数へ拡張する。

結果

実験は RewardBench、MTBench、PreferenceBench の三つのベンチマークで行われた。評価対象の LLM は Llama-3-8B、Llama-3.1-8B、Qwen-14B、Qwen-72B、ChatGPT、GPT-4o である。比較手法には、バイアスを避けるようプロンプトで指示する Debiasing Instruct、Contextual Calibration、Domain-context Calibration、Pride が含まれる。

主な指標は、選択肢の位置やトークンを入れ替えたときの判断一貫性を測る Fleiss's Kappa と Intraclass Correlation Coefficient（ICC）である。CalibraEval は、多くのモデルとデータセットでこれらの一貫性指標を改善した。たとえば Qwen-72B の平均では、未補正の Kappa が 77.47、ICC(2,k) が 92.63 であったのに対し、CalibraEval は Kappa 79.98、ICC(2,k) 96.24 となった。GPT-4o でも平均 ICC(2,k) は 93.77 から 96.19 に上がっている。

参照ラベルを用いた評価でも、CalibraEval は recall の不均衡を示す RStd を下げ、精度を上げる傾向を示した。ChatGPT の RewardBench では、RStd が 16.79 から 5.51 へ下がり、精度は 65.27 から 67.13 へ上がった。著者らは、選択バイアスが評価判断を乱し、結果として精度も下げている可能性を指摘している。補正の効果は、プロンプトテンプレートを変えた場合や、推定に使うデータ量を減らした場合にも残った。10% のデータだけでも、ChatGPT では全データを使った場合の改善の 85% 超を得たと報告されている。

具体例

ある要約評価で、モデルに「次の二つの要約のうち、元記事をより正確に要約しているものを選べ」と尋ねる場面を考える。A には、記事の主要な事実を保っているが少し短い要約が入り、B には、読みやすいが一つ重要な数値を誤っている要約が入る。評価器 LLM が本来見るべきなのは、どちらが元記事に忠実かという内容である。しかし、同じ二つを B、A の順に並べ替えたとき、あるいは選択肢トークンを 1、2 のように変えたときに、確率が大きく動くことがある。

CalibraEval では、この同じ比較を複数の表記で評価器に出し、それぞれの A/B 確率を集める。もし第一位置を好む傾向があれば、良い要約が後ろに置かれたときだけ確率が下がる。もし A というトークンを好む傾向があれば、内容が B 側に移ったときに判断が鈍る。NOA は、これらの変動を、内容に由来する確率と表示形式に由来する偏りに分けるような補正関数を推定する。期待される出力は、単に A/B を選ぶ結果ではなく、入れ替え後も同じ要約を選びやすい、より安定した確率である。間違えやすいのは、両方の要約が拮抗している場合で、このとき補正がすべてを同点に近づけすぎると評価信号が失われる。論文の損失関数に正則化項が入っているのは、そのような潰れた解を避けるためである。