Binary Classifier Optimization for Large Language Model Alignment

生成日:

Binary Classifier Optimization for Large Language Model Alignment

Abstract(日本語訳)

ChatGPT のような実サービスでは、ユーザーフィードバックに基づいてモデルをアラインメントすることが、モデル性能の改善に重要である。しかし、フィードバック提供の単純さと利便性のため、ユーザーは通常、thumbs-up や thumbs-down のような基本的な二値信号しか与えない。一方、既存のアラインメント研究の多くは、正の応答と負の応答を対として必要とする選好ベースの手法に依存している。本論文では、二値フィードバックだけを用いて LLM を有効にアラインメントする手法である Binary Classifier Optimization(BCO)を提案する。BCO は二値分類器を訓練し、その logit を暗黙の報酬として用いることで、Direct Preference Optimization(DPO)損失を実質的に最小化する。分類器訓練で用いられる binary cross-entropy 損失が DPO 損失の上界として働くことを示す。さらに、新しい reward shift 技法により、両損失の差をいっそう小さくする。本手法を二つの設定で検証する。第一に、ペア選好データセット上では、本手法は DPO と同等の性能を示す。第二に、実ユーザーのクエリに由来する Likert-5 段階アノテーションデータセット上で検証する。本モデルは、四つのベース LLM と三つの異なるデータセットにわたり、一貫して有効で頑健なアラインメントを示し、二値信号から学習する本手法の強みを示した。

論文の面白いところ

この論文の中心は、実サービスで自然に集まるフィードバックの形にアラインメント手法を合わせた点にある。DPO は「同じプロンプトに対する良い応答と悪い応答のペア」を前提とするが、多くのサービス画面でユーザーが実際に押すのは thumbs-up か thumbs-down である。BCO は、この差を無理にデータ作成で埋めず、二値分類の問題として扱う。良い応答を 1、悪い応答を 0 として学習し、その分類器の logit を報酬として読むことで、DPO と近い目的を最適化できると論じる。単なる経験則ではなく、BCE 損失が DPO 損失の上界になるという形で理論的な接続を置いている点がよい。さらに、reward shift により、その上界と DPO 損失の差を小さくする設計も加えている。Kahneman-Tversky Optimization(KTO)との比較では、KTO の参照点が 0 に潰れやすく、学習が参照モデルに近いところで止まりやすい可能性を指摘する。実務的には、ユーザーから一つの応答への単独評価しか得られない環境でも、ペア選好データを作る手間を減らしてアラインメントできる道筋を示している。

問題設定

LLM のアラインメントでは、事前学習済みモデルが出しうる望ましくない応答を減らし、人間の好みに近い応答を増やすことが目標となる。Reinforcement Learning from Human Feedback(RLHF)は報酬モデルと強化学習を使うが、訓練段階が多く、計算量も大きい。DPO は報酬モデルを別に訓練せずに選好ペアから直接学習するため、より扱いやすい方法として広く用いられてきた。ただし DPO も、選ばれた応答と退けられた応答のペアを必要とする。実サービスでは、ユーザーが二つの候補を比較してくれるとは限らない。多くの場合、ユーザーは表示された一つの応答に対して thumbs-up または thumbs-down を返すだけである。この二値信号は集めやすいが、既存の選好最適化の枠組みとは形が合わない。論文は、この二値信号だけから DPO に近いアラインメントを行えるかを問う。対象は、プロンプトと単一の completion、およびその肯定または否定ラベルからなるデータである。

提案手法

Binary Classifier Optimization(BCO)は、アラインメントを二値分類として書き直す。thumbs-up が付いたプロンプトと completion の組を正例、thumbs-down が付いた組を負例とし、モデルが暗黙に与える報酬 logit で分類する。報酬は DPO と同じく、学習中の policy model と reference model の生成確率の比から定義される。論文は、正例の報酬を上げ、負例の報酬を下げる BCE 損失が、DPO 損失の上界になることを示す。したがって、ペアを明示的に作らなくても、BCE を最小化することが DPO 的な目的の近似になる。BCO のもう一つの要素は reward shift である。正例と負例の平均報酬から定数 δ を計算し、報酬をこの基準でずらしてから BCE を適用する。この shift は、BCE 上界と DPO 損失の間に生じる誤差項を小さくするために導入される。実装上は δ を指数移動平均で計算し、訓練の安定性を保つ。KTO と比べると、BCO は低報酬の正例や高報酬の負例にも勾配が残りやすく、すべてのサンプルをより均等に扱う性質をもつ。

結果

実験は UltraFeedback、Capybara、HelpSteer2 の三つのデータセットで行われた。モデルには Llama-3.2-3B、Llama-3.1-8B、Qwen2.5-3B、Qwen2.5-7B が用いられている。UltraFeedback と Capybara は選好ペアを持つため、DPO、KTO、BCE、BCO を比較しやすい設定である。この設定では、単純な BCE でも SFT より一貫してよく、二値分類の形だけでもアラインメント効果があることが示された。reward shift を入れた BCO は BCE より改善し、多くの条件で DPO と同程度の性能に達した。HelpSteer2 では、5 段階の helpfulness 評価を thumbs-up と thumbs-down に変換して学習した。ここでは BCO がすべてのモデルで DPO を上回り、KTO よりも安定してよい結果を示した。MT Bench、AlpacaEval 2.0 LC、Arena-Hard による評価でも、BCO はおおむね他手法より高い値を示し、とくに Arena-Hard では Llama-3.1-8B-Instruct と Qwen2.5-7B-Instruct の両方で最良であった。ただし論文自身も述べるように、実際の二値ユーザー評価だけで構成された標準ベンチマークは少なく、この点は評価上の制約である。

具体例

あるチャットサービスで、ユーザーが「wp-admin でウィジェットの配置を変えられますか」と尋ねたとする。モデルは WordPress の管理画面での操作手順を答え、ユーザーはその応答に thumbs-up を押す。別の応答では、存在しないメニュー名を示したり、古い画面構成に基づく説明を返したりして、ユーザーが thumbs-down を押す。DPO なら、同じプロンプトに対して良い応答と悪い応答を対にして比較データを作る必要がある。BCO では、それぞれの応答を単独の訓練例として扱い、thumbs-up の例は 1、thumbs-down の例は 0 として学習する。訓練中のモデルは、正しい手順を含む応答の暗黙報酬を上げ、誤った手順を含む応答の暗黙報酬を下げる。reward shift は、この報酬の基準点を訓練データの正例と負例に合わせて調整する役割を持つ。期待される出力は、管理画面のどこを開き、どの設定で配置を変えるのかを過不足なく説明する応答である。間違えやすい点は、thumbs-down が必ずしも「全体が悪い」ことを意味しない点で、たとえば説明は丁寧でも一つのメニュー名だけが誤っている場合がある。BCO はその細部の理由までは直接知らないが、多数の二値信号から、望まれやすい応答と避けるべき応答の傾向を学習する。