The Distracting Effect: Understanding Irrelevant Passages in RAG
- 検索拡張生成(Retrieval Augmented Generation, RAG)において、質問とは関係が薄いが語彙や話題が近い文書が、回答生成モデルを誤答へ導く現象を扱う。
- 論文は、無関係な文書の「惑わせる効果」を、モデルが本来棄権すべき場面で回答してしまう確率として測る方法を定める。
- その測度を用いて難しい妨害文書を集め、微調整用データに加えると、通常の RAG データで微調整する場合より回答精度が上がることを示す。
論文の面白いところ
この論文の焦点は、RAG の失敗を「検索が外れた」という一語で片づけない点にある。無関係な文書にも、ほとんど害のないものと、モデルの判断を強く乱すものがある。著者らはその差を、文書が質問に対してどれだけ「答えらしさ」を帯びるかという問題として扱う。評価は単純で、文書だけを与え、答えがないなら NO-RESPONSE と返すようモデルに求める。そのときモデルが棄権せずに答えようとする確率を、distracting effect と呼ぶ。これは 0 から 1 の値で表され、同じ質問に対する複数の候補文書を順位づけるのに使える。興味深いのは、この値がモデル間でかなり相関することである。Llama、Falcon、Qwen の大きさや系列が違っても、惑わされやすい文書はある程度共通していた。RAG の堅牢性を考える際、検索器の精度だけでなく、外れた文書の性質も測るべきだという見方を与えている。
問題設定
RAG は、質問に関係する文書を検索し、その文書を大規模言語モデル(Large Language Model, LLM)へ渡して回答を作らせる方法である。正しい文書が得られれば、モデルの記憶だけに頼るより事実に基づいた回答を出しやすい。しかし検索結果には、答えを含まない文書も混じる。従来は、そうした文書を単に irrelevant passage と呼ぶことが多かった。著者らは、無関係な文書の中でも、質問に近い語や人物名を含むためにモデルを誤答へ導くものを distracting passage として扱う。たとえば「ある歌が使われた映画」を尋ねたとき、同じ歌手や似た映画に触れる文章は、答えを含まなくても強い手掛かりのように見える。問題は、そのような文書をどう測り、どう集め、どう学習に使うかである。論文の実験は質問応答を中心にし、Natural Questions、PopQA、TriviaQA、WebQuestions を用いる。評価では、正解文書がある場合と、正解を含まない文書だけがある場合の双方を分けて見る。
提案手法
提案の中核は、質問 q と無関係な文書 p に対する distracting effect、すなわち DEq(p) の定義である。モデルには、文書を読んで質問に答え、答えが文書中にない場合は NO-RESPONSE と返すよう指示する。DEq(p) は 1 から NO-RESPONSE の生成確率を引いた値として計算される。値が高いほど、モデルはその文書を根拠に答えてしまいやすい。この計算は新しいトークンを実際に長く生成する必要がなく、NO-RESPONSE の最初のトークンの確率を見れば足りる。無関係文書の取得には、通常検索、再ランキング付き検索、answer-skewed retrieval、LLM による生成を使う。answer-skewed retrieval は、質問の埋め込みから正解の埋め込み成分を差し引き、質問には近いが正解そのものからは離れた文書を探す。生成型の方法では、関連話題、仮定的記述、否定、断定を避けた推量表現という四つの型を用意する。最後に、これらの方法で集めた強い妨害文書を含むデータを作り、Llama-3.2-3B-Instruct と Llama-3.1-8B-Instruct を LoRA で微調整する。
結果
まず、検索順位が高い無関係文書ほど distracting effect が高い傾向が見られた。再ランキングを加えると、上位の無関係文書はさらに惑わせるものになりやすかった。これは再ランキングが関連文書を上げるだけでなく、正解を含まないが関連して見える文書も強く選び出すためと考えられる。通常検索と生成手法を組み合わせると、単一の方法だけより強い妨害文書を広く集められた。各手法には固有の得意例があり、最も強い妨害文書を常に同じ方法が出すわけではなかった。正解文書と強い妨害文書を同時に与えると、正解文書だけを与えた場合に比べて回答精度は 6 から 11 ポイント下がった。この低下は Llama-3.3-70B のような大きいモデルにも残った。微調整実験では、強い妨害文書を含む Hard データで学習したモデルが、全体として最もよい結果を示した。Llama-3.2-3B では 5.3 から 16.1 ポイント、Llama-3.1-8B では 3.6 から 11.0 ポイントの改善が報告されている。
具体例
論文中の例では、質問は「On the Road Again という歌が使われた映画は何か」であり、正解は Honeysuckle Rose である。正しい文書には、Willie Nelson が映画 Honeysuckle Rose のサウンドトラックのためにこの歌を書いたことが書かれている。ここに「多くの人は、この歌が Smokey and the Bandit II に初めて現れたと誤って信じている」という別の文書を加える。この文書は、実際には正解を含まず、誤解であるとも述べている。それでも、歌名、映画名、道路を走るという主題が質問とよく合っているため、モデルはその映画名を答えとして拾いやすい。論文の例では、Falcon-3-3B が正しい文書を見ているにもかかわらず Smokey and the Bandit II と答えている。弱い妨害文書の場合は、同じ歌手の別の曲や映画に触れていても、質問に直接似た誤答を作りにくく、モデルは Honeysuckle Rose と答えられる。ここで測っているのは、文書が真か偽かだけではなく、誤った答えをどれほど自然に誘うかである。RAG の実運用では、検索結果にこうした文書が一つ入るだけで、正しい根拠の効き方が弱まることがある。