Evaluation of Attribution Bias in Generator-Aware Retrieval-Augmented Large Language Models
- RAG の回答に出典を付ける場面で、入力文書の著者情報が引用先の選び方を変えるかを調べた論文である。
- 著者らは、同じ文書に [Human] と [LLM] の著者ラベルを付け替える反実仮想評価を用い、Mistral、Llama3、GPT-4 の帰属感度と帰属バイアスを測定した。
- NQ と MS MARCO で、著者情報の追加により帰属品質は 3〜18% 変化し、三つのモデルはいずれも明示的な人間著者ラベルの文書を引用しやすかった。
Abstract(日本語訳)
回答を出典文書に帰属させることは、retrieval-augmented generation(RAG)におけるモデル出力の検証可能性を高めるための方法である。先行研究は主に、RAG における大規模言語モデル(LLM)の帰属品質を改善し評価することに焦点を当ててきたが、そのことは回答の帰属にバイアスを生じさせるおそれがある。本論文では、RAG パイプラインにおける LLM 評価の二つの側面、すなわち著者情報に関する帰属感度と帰属バイアスを定義し、検討する。著者らは、出典文書の著者を LLM に明示的に知らせ、回答を出典に帰属するよう指示し、(i)LLM の出力が出典文書の著者にどれほど敏感であるか、(ii)LLM が人間の書いた出典文書または AI 生成の出典文書に対してバイアスを示すかを分析する。三つの LLM について、RAG パイプラインにおける帰属感度とバイアスを調べるため、反実仮想評価を用いた実験設定を設計する。結果は、出典文書に著者情報を追加すると、LLM の帰属品質が 3〜18% の範囲で有意に変化しうることを示した。また、LLM には明示的な人間著者に向かう帰属バイアスがありうることを示す。これは、LLM 生成コンテンツが人間の書いたコンテンツより好まれる場合があるとする先行研究の知見に対する、競合する仮説となる。著者らの知見は、出典文書のメタデータが LLM の信頼の置き方と回答の帰属方法に影響しうることを示している。さらに本研究は、帰属バイアスと帰属感度を、LLM の脆さの新しい側面として位置づける。
論文の面白いところ
RAG は、検索した文書を根拠として LLM に答えさせる仕組みである。実用上は、答えそのものだけでなく、その答えがどの文書に支えられているかも重要になる。出典付き回答は一見すると安全に見えるが、この論文は、引用先の選択が文書本文だけでなく著者ラベルにも左右されることを示している。特に面白いのは、文書が実際に人間のものか LLM 生成のものかではなく、入力上でどう表示されるかが効いている点である。関連文書に [Human]、非関連文書に [LLM] と付けると、モデルは関連文書をより引用しやすくなる。逆に、関連文書に [LLM]、非関連文書に [Human] と付けると、帰属品質は下がる。これは RAG の信頼性を、検索器や生成器の性能だけでなく、文書メタデータの設計としても見る必要があることを示す。論文は、メタデータが攻撃や誘導の面でも利用されうると述べている。たとえば自分の文書に信頼されやすい著者情報を付けることで、LLM の引用を自分の文書へ寄せる余地がある。出典付き RAG を実サービスに組み込む場合には、引用の妥当性を「文書が引用されたか」だけでなく「なぜその文書を引用したか」まで確認する必要がある。
問題設定
この論文が扱う問題は、RAG における回答の帰属が、出典文書の著者情報にどの程度影響されるかである。通常の RAG では、質問と検索結果の集合を LLM に渡し、関連する文書を使って回答を生成させる。出典付き RAG では、回答中に [0] や [1] のような引用番号を入れ、どの検索結果を根拠にしたかを示す。理想的には、引用されるべき文書は、質問への答えを含む関連文書である。しかし、LLM は関連しない文書を引用したり、答えに必要な文書を引用しなかったりする。この論文は、その誤りが文書の著者ラベルによって増減するかを調べる。評価対象は、Mistral-7B-Instruct-v0.3、Meta-Llama-3-8B-Instruct、gpt-4-0314 の三つである。ベンチマークには Natural Questions(NQ)と MS MARCO Question Answering を使い、それぞれ 500 件のクエリをサンプルしている。評価を追いやすくするため、検索上位文書の中に正解を含む関連文書が一つだけあるクエリに限定している。これにより、どの文書を引用すべきだったかを明確にし、precision と recall で帰属品質を測れるようにしている。
提案手法
著者らは、著者情報に対する二つの指標を定義する。一つは Counterfactually-estimated Attribution Sensitivity(CAS)で、著者情報なしの通常 RAG と、著者情報を明示した RAG の帰属品質の差を測る。もう一つは Counterfactually-estimated Attribution Bias(CAB)で、実際の著者ラベルを付けた場合と、それを反転させた場合の帰属品質の差を測る。実験では三つの RAG モードを用いる。Vanilla RAG は文書に著者情報を付けない。Authorship Informed RAG は、文書に [Human] または [LLM] のラベルを付ける。Counterfactual-Authorship Informed RAG は、人間文書を [LLM]、LLM 生成文書を [Human] として表示する。LLM 生成文書は、元文書を Llama3 で情報を加減せずに言い換えて作り、関連・非関連の状態が保たれているかを専門アノテータで確認している。さらに Mixed RAG モードも用意し、実際の文書は同一のまま、関連文書と非関連文書の著者ラベルだけを変える。この設計により、LLM 生成文書の文体そのものへの好みと、著者ラベルへの反応を分けて観察している。
結果
三つのモデルはいずれも、出典文書の著者情報に敏感であった。著者情報を加えるだけで、帰属品質は条件によって 3〜18% 程度変化した。NQ では、Mistral と Llama3 の感度が GPT-4 より大きい傾向があり、MS MARCO でも同じ方向の結果が見られた。帰属バイアスについては、三つのモデルすべてで人間著者ラベルへの正のバイアスが確認された。たとえば NQ では、CAB の precision 差が Mistral でおおむね +9.4 から +10.6、Llama3 で +11.8 から +15.1、GPT-4 で +5.8 から +6.2 であった。MS MARCO でも同様に、人間著者ラベルへの有意な偏りが出ている。Mixed RAG でも、文書そのものをそろえたまま著者ラベルだけを変えると、関連文書が人間著者として示された場合に引用品質が高くなった。このことは、実際の著者が誰かよりも、モデルに見える著者ラベルが引用行動を変えることを示す。なお、引用トークンの生成確率を見ると、モデルはおおむね関連文書への引用では非関連文書への引用より高い confidence を示していた。著者らは、この confidence が帰属改善の手掛かりになる可能性にも触れている。
具体例
たとえば、質問が「ワクチン X を承認した機関はどこか」であり、検索結果として十件の文書が与えられたとする。そのうち Document [3] だけが正解を含み、「ワクチン X は欧州医薬品庁により承認された」と書いてある。他の文書は似た薬剤や別地域の規制について述べているが、この質問には答えていない。出典付き RAG では、モデルは「欧州医薬品庁である [3]」のように答えるのが望ましい。この論文の設定では、Document [3] に [Human] と付け、非関連文書に [LLM] と付けた場合と、逆に Document [3] を [LLM] と表示した場合を比べる。本文が同じでも、関連文書に [Human] が付くとモデルはそれを引用しやすくなり、[LLM] が付くと引用を避ける方向へ動くことがある。間違えやすい点は、文書の内容ではなく、著者ラベルを信頼性の手掛かりとして過大に使ってしまうことである。実際のシステムでは、著者名、発行者、媒体名、生成元などのメタデータが同じ役割を持ちうる。したがって、RAG の出典表示を評価するときは、答えの正誤だけでなく、引用がメタデータに引きずられていないかを見る必要がある。