GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents
- LLM エージェントが、一般常識ではなく、外部から与えられた業務上のガイドラインに従えるかを測るベンチマークである。
- GuideBench は監査、価格照合、テキスト関連性、数学、エージェント対話、要約、ハルシネーション検出の 7 分野、1272 事例からなる。
- 18 種類の LLM を評価した結果、上位モデルでも分野差が大きく、特に複雑な数値規則や更新された規則への追従が弱点として残った。
Abstract(日本語訳)
大規模言語モデル(LLM)は、ユーザーの指示に従い、実世界の応用で意思決定を行う自律エージェントとして広く導入されている。従来研究は、LLM の指示追従能力を一般領域でベンチマークする点で大きく進展してきたが、その主な焦点は LLM が内部にもつ常識的知識に置かれていた。近年、LLM は領域志向のエージェントとしてますます導入されており、そのようなエージェントは、常識的知識と衝突しうる領域志向のガイドラインに依存する。これらのガイドラインには二つの特徴がある。すなわち、広範な領域志向の規則から構成され、かつ頻繁に更新されることである。こうした課題があるにもかかわらず、LLM の領域志向ガイドライン追従能力を評価する包括的なベンチマークが存在しないことは、その有効な評価と今後の発展にとって大きな障害となっている。本論文では、LLM のガイドライン追従性能を評価するために設計された包括的ベンチマークである GUIDEBENCH を提案する。GUIDEBENCH は、(i)多様な規則への遵守、(ii)規則更新に対する頑健性、(iii)人間の選好とのアラインメント、という三つの重要な側面から LLM を評価する。各種 LLM を用いた実験結果は、領域志向ガイドラインに従う能力には、なお大きな改善の余地があることを示している。データとコードは https://github.com/Dlxxx/GuideBench で公開されている。
論文の面白いところ
この論文の焦点は、LLM が「正しそうな答え」を出せるかではなく、「与えられた業務規則に従って答えを変えられるか」にある。ここが実用上はかなり重要である。たとえば商品照合では、一般には同じ意味に見える表現でも、法務上の定義や社内ルールでは別物として扱う場合がある。モデルが自分の常識を優先すると、見た目には自然な答えでも、業務システムとしては誤った判定になる。GuideBench はこの種の失敗を、監査、価格照合、要約、ハルシネーション検出などの運用場面に寄せて測る。さらに、ガイドラインの更新を明示的に扱う点も現実的である。規則は一度書いたら終わりではなく、標準、法律、社内ポリシー、商品仕様の変更に合わせて変わる。LLM エージェントを業務に置くなら、この変化に追従できるかを見なければならない。本論文は、その評価の足場を作ろうとしている。
問題設定
既存の instruction following ベンチマークの多くは、一般的な指示や複数条件の指示を扱う。しかし実際の運用では、指示だけでなく、別途与えられるドメイン固有の規則が答えを左右する。論文ではこの外部規則をガイドラインと呼び、単発のタスク指示とは区別している。ガイドラインは条件分岐を含み、複数の規則が組み合わさり、場合によっては LLM の常識と衝突する。さらに、規則は頻繁に更新されるため、以前なら正しかった答えが、更新後には誤りになることもある。GuideBench の評価対象は、LLM が指示、ガイドライン、文脈を読み、必要なら選択肢を比較し、ガイドラインに照らして答えを出す能力である。タスク形式は、自由回答に近い question-answering 形式と、複数候補から最適な回答を選ぶ形式に分かれる。評価では、人間が付けた正解ラベルや参照回答と照合して accuracy、precision、recall を計算する。つまり、単なる知識テストではなく、外部ルールをその場で適用するテストである。
提案手法
GuideBench は、実運用に近い 7 分野から 1272 件のタスクを構成する。分野は audit algorithm、price matching、text relevance、math、agent chatting、summarization、hallucination detection である。各タスクは、上位の指示、ドメインガイドライン、入力文脈、必要に応じた回答候補からなる。データ作成では、まず実用場面に基づく seed instruction と基本ガイドラインを用意し、そこから LLM を使ってドメイン固有の規則を生成する。生成された規則は GPT-4o による重複除去と人手確認を経て、537 個の guideline rule に整理される。次に、同一分野内の規則をランダム選択、多様性重視の選択、意味的一貫性を考えた LLM 選択で組み合わせる。規則更新への頑健性を見るために、ガイドライン中の規則を変更した事例も作る。最後に、LLM が生成した回答候補や分析を、人間の専門知識をもつ annotator が確認し、正解ラベルや解説を修正する。この作り方により、単に難しい問題を集めるのではなく、規則の適用、規則の組合せ、規則の更新をまとめて調べられる。
結果
実験では、API ベースのモデルと open-source モデルを含む 18 種類の LLM を評価している。表形式の出力ゆれを抑えるため、回答は GPT-4 で所定形式に parse してから採点される。総合 accuracy では Deepseek-R1 が 87.26%、GPT-4o が 86.48%、Llama-3.3-70B-Instruct が 86.24% と高い値を示した。一方で、分野別に見ると弱点はかなり異なる。GPT-4o は総合では高いが、math では 13.46% に落ちる。Deepseek-R1 は math で 65.38% と相対的に高いものの、それでも十分に安定した水準とは言いにくい。ガイドラインを外した GPT-4o* との比較では、価格照合、数学、エージェント対話、要約で性能低下が見られ、外部規則そのものが答えの品質に効いていることが示される。Chain-of-Thought(CoT)は複雑な math タスクでは accuracy を 42.31% から 65.38% に上げたが、summarization ではほぼ差がなかった。誤り分析では、math の失敗の 87% が論理的な誤り、13% が常識や商品カテゴリの取り違えに分類された。論文は、LLM が規則を読むだけでなく、どの規則をいつ適用するかを安定して制御する必要があると結論づけている。
具体例
ある EC サイトの価格照合を考える。入力には二つの商品情報があり、一方は「Sugar-Free Chocolate」、もう一方は「Zero-Sugar Chocolate」と書かれている。一般的な感覚では、どちらも砂糖がない商品として近い意味に見えるかもしれない。しかしガイドラインが「sugar-free は 1 食分あたり 0.5g 以下、zero sugar は 0g を指す」と定めていれば、モデルは商品名の印象ではなく、その規則に従って判定しなければならない。さらに、別の更新後ガイドラインが「マーケティング上は sugar-free と zero sugar を同義として扱う」と定めれば、同じ入力でも期待される答えは変わる。GuideBench のタスクでは、モデルは指示、商品説明、ガイドラインを読んだうえで、二つの商品が同一かどうかを答える。間違えやすい点は、モデルが「砂糖なし」という常識的な類似性だけで判断してしまうこと、または更新後の規則を読まずに旧来の法的定義を引きずることである。実際の業務では、この種の小さな規則差が、監査結果、価格照合、問い合わせ対応の出力を変える。GuideBench は、その差をモデルが扱えるかを正面から測る。