Cheems: A Practical Guidance for Building and Evaluating Chinese Reward Models from Scratch

生成日:

Cheems: A Practical Guidance for Building and Evaluating Chinese Reward Models from Scratch

Abstract(日本語訳)

Reward model(RM)は、大規模言語モデル(LLM)を人間の選好に合わせるうえで重要である。しかし、RM 研究の多くは英語を中心としており、合成リソースに大きく依存しているため、中国語についてはデータセットとベンチマークが限られ、信頼性も十分ではない。この不足に対処するため、本論文では、中国語の文脈における完全人手アノテーションの RM 評価ベンチマークである CheemsBench と、中国語 RM の訓練を支えるために人間と機械の協働でアノテーションされた、大規模で多様な選好データセット CheemsPreference を導入する。著者らは CheemsBench 上で、オープンソースの識別型 RM と生成型 RM を体系的に評価し、中国語の場面で人間の選好を捉える能力に大きな限界があることを観察した。さらに、CheemsPreference に基づいて RM を構築し、CheemsBench 上で state-of-the-art の性能を達成したことで、RM 訓練における人間による監督の必要性を示した。著者らの知見は、規模を拡大した AI 生成データだけでは人間の選好を十分に捉えにくく、RM 開発では高品質な人手監督が重要であることを明らかにしている。

論文の面白いところ

この論文は、中国語 RM の不足を「モデルを少し調整する」問題ではなく、評価と訓練データを同時に作る問題として扱っている。英語圏では RewardBench や UltraFeedback のような資源がよく使われるが、それを中国語に持ち込んでも、人間の選好や実利用の指示を十分に写せるとは限らない。著者らはそのずれを、CheemsBench という評価用データと CheemsPreference という訓練用データに分けて整理した。

特に重要なのは、単純な二択比較だけでなく、1 つのプロンプトに対する複数の応答を部分順位として扱う点である。実際の Best-of-N やデコーディング時の選別では、候補は 2 個ではなく多数であり、同程度の応答も混じる。そこで、3 応答ずつの人手比較から preference graph を作り、矛盾を閉じ込めた上でトポロジカルソートにより部分順位を得る。これは派手な設計ではないが、RM の評価が実際の使われ方に近くなる。

もう一つの要点は、GPT-4o のアノテーションをそのまま信じていないことである。著者らは、少量の人手データで訓練した RM を用いて GPT アノテーションをフィルタし、さらに長さバイアスを後処理で抑える。この設計からは、大規模合成データは有用だが、品質を固定する錨として人間の判断が必要だという姿勢が読み取れる。

問題設定

LLM の post-training では、人間が好む出力を高く評価する RM が中核的な部品になる。RM は reinforcement learning from human feedback(RLHF)の報酬として使われるほか、生成時に複数候補を並べて良いものを選ぶ Best-of-N のような用途にも使われる。したがって RM が中国語の応答品質を誤って評価すれば、後段のアラインメントや応答選択もその誤りを受け継ぐ。

既存研究の多くは英語の preference dataset と benchmark を前提としている。中国語にもデータセットはあるが、小規模であったり、特定ドメインに偏っていたり、機械生成のラベルに強く依存していたりする。論文は、これを「中国語 RM を作るための基盤資源が足りない」という問題として定式化する。

評価の単位にも課題がある。典型的な RM 評価は、好ましい応答と好ましくない応答のペアを与え、前者に高いスコアを付けられるかを見る。しかし、実際の利用では 5 個、32 個といった候補から選ぶことが多く、同じプロンプトの中に僅差の応答や同順位に近い応答も存在する。CheemsBench はこの状況を扱うため、複数応答の比較と部分順位を評価対象にしている。

提案手法

CheemsBench は、中国語 RM の評価用ベンチマークである。プロンプトは、公開データセット由来のものと、実環境から得た人間の指示から構成される。各プロンプトに対して、Qwen、LLaMA、GLM、InternLM、GPT、Claude など複数のモデルから 5 個の応答を集める。これにより、品質の高い応答、低い応答、コードスイッチングや不自然な応答が同じ評価空間に入る。

アノテーションでは、5 個の応答を一度に完全順位付けするのではなく、隣接する 3 応答の比較を複数回行う。得られた比較結果は有向グラフに変換され、応答がノード、選好関係がエッジになる。人間の判断には揺れがあるため、グラフには循環が生じうる。著者らは深さ優先探索で循環を検出し、矛盾する応答群を同程度の品質としてまとめ、最後にトポロジカルソートで一貫した部分順位を得る。

CheemsPreference は訓練用の選好データセットである。27,861 件の実際の人間の指示を集め、それぞれに平均 5 個超の応答を生成させる。全てを人手で比較するのは高価なため、まず小さな人手ラベル付き subset を作り、それで RM を訓練する。次に GPT-4o が付けた大規模な比較ラベルを、この RM でフィルタして一貫した選好グラフに整える。長い応答が好まれやすい偏りについては、chosen が長いペアと短いペアの分布を均衡させる後処理で抑えている。

結果

CheemsBench で既存の識別型 RM と生成型 RM を評価すると、英語の代表的 benchmark で高い成績を示すモデルでも、中国語設定では性能が落ちる。たとえば Skywork-Reward-Gemma-2-27B は RewardBench で 0.938 の値を示す一方、CheemsBench の overall は 0.535 にとどまる。GPT-4o を reward model 的に使った場合も、overall は 0.457 である。これは、汎用的な judge 能力や英語 benchmark の強さが、そのまま中国語の選好評価に移らないことを示す。

CheemsPreference で訓練した CheemsRM は、CheemsBench の overall で 0.657 を得た。Open Prompt subset では accuracy 0.857、exact match 0.508、人間の実指示 subset では accuracy 0.832、exact match 0.431 である。比較対象の上位モデルより高く、特に exact match の差が大きい。複数応答を完全に近い形で並べる課題では、データ構築の差が見えやすい。

データセット比較でも、既存の中国語 preference dataset は英語の強い dataset に比べて十分ではないことが示された。英語の UltraFeedback で訓練した RM は CheemsBench 上でも比較的強いが、中国語固有の実指示を十分に覆うものではない。さらに、CheemsBench のスコアは Human Win-rate、MT-bench-zh、MT-bench における Best-of-32 の downstream 性能と強く相関した。著者らは、人手で作った benchmark の方が GPT アノテーション版より downstream との対応がよいと報告している。

具体例

あるユーザーが中国語で「次の文を文言文に訳してください: 門客が彼に言った」と依頼したとする。複数の LLM は、この入力に対して「門客謂之曰」のような簡潔で自然な訳、語義を少し取り違えた訳、現代中国語が混じる訳、意味は近いが文言文として不自然な訳を返す。CheemsBench の作成では、こうした 5 個の応答を並べ、人間のアノテータが 3 個ずつ比較して、どれがより適切かを判断する。

RM は最終的に、入力プロンプトと各応答の組に報酬スコアを付ける。よい RM であれば、文意を保ち、文言文として自然で、余分な説明を加えない応答に高いスコアを与える。反対に、意味を広げすぎた応答、現代語のまま残した応答、文字化けや英語混じりの応答には低いスコアを与えるべきである。難しいのは、文法的には正しいが語感が硬すぎる応答や、内容は合っているが指示より長すぎる応答である。単純なペア比較だけでは、このような僅差の候補の扱いが不安定になりやすい。Cheems の部分順位と矛盾解消は、その不安定さを評価データの中で明示的に扱うための仕組みである。