Visual Evidence Prompting Mitigates Hallucinations in Large Vision-Language Models

生成日: 2026-05-24 02:20

# Visual Evidence Prompting Mitigates Hallucinations in Large Vision-Language Models

- 大規模 Vision-Language Model（LVLM）が画像中に存在しない物体・属性・関係を答える問題に対し、外部の小型視覚モデルが出した検出結果をプロンプトとして与える。
- 提案手法 Visual Evidence Prompting（VEP）は、LVLM の重みや logits に触れず、API 型モデルにも適用できる training-free な方法である。
- POPE、AMBER、独自に構成した関係 hallucination 評価 RPE で、多くのオープンモデルと商用 API において object・attribute・relation hallucination を減らした。

## Abstract（日本語訳）

大規模 Vision-Language Model（LVLM）は、視覚知覚と言語理解を統合し、文脈に根ざした出力を生成する点で大きな進歩を示してきた。しかし、こうした進歩にもかかわらず、LVLM にはなお hallucination の問題がある。すなわち、入力画像には存在しない内容を生成しがちである。本研究の調査によれば、そのような hallucination は、特に視覚場面が外観または意味の類似性を示す場合、視覚面での細粒度な理解の不足に由来することが多い。たとえば、自転車とオートバイ、野球のバットと野球ボールのような場合である。本研究では、小型の視覚モデルを用いて LVLM を補完する Visual Evidence Prompting という新しい方法により、このような hallucination が自然に緩和されることを示す。従来型の視覚モデルは人間との対話には長けていないが、細粒度な画像内容の知覚には優れている。領域専門モデルの専門的な出力をプロンプトとして記号化することで、汎用的な LVLM はその evidence を視覚知識として参照し、より正確な答えを生成できる。詳細な分析により、visual evidence はモデルが画像上の attribution と attention を調整・修正することを可能にし、誤った活性化を抑え、正しい活性化を強めることで視覚的な混同を減らすことが示された。広範な実験と詳細な分析は、本手法の有効性を示している。本研究が、LVLM における hallucination の理解を深め、この問題に取り組むための有用な見方を提供することを期待する。

## 論文の面白いところ

この論文の要点は、LVLM の hallucination をモデル内部の調整だけで直そうとしない点にある。画像質問応答で「野球ボールはあるか」と聞かれたとき、モデルがバットに反応して「ある」と答える例が示される。著者らは、この誤りを単なる言語側の癖ではなく、画像中の似た領域への過剰な注目として扱う。そこで、物体検出や scene graph generation のような小型視覚モデルを、LVLM の補助役に置く。小型モデルは会話や一般推論には弱いが、画像内の物体名や関係を細かく出すことには向いている。この役割分担は素朴だが、実用上は扱いやすい。LVLM をファインチューニングせず、プロンプトに evidence を足すだけなので、閉じた API モデルにも使えるためである。さらに、著者らは性能表だけでなく attribution map や confidence の分析を用い、visual evidence がどのように注意の向きを変えるかも調べている。単なる追加テキストにモデルが依存しているのではなく、画像・質問・evidence を合わせて判断していることを、ランダム画像への差し替え実験でも確認している。

## 問題設定

対象となる問題は、大規模 Vision-Language Model が画像にない内容を答える multimodal hallucination である。たとえば、画像にバットはあるがボールはない場合に、モデルが「スポーツボールがある」と答えるような誤りが含まれる。論文では、こうした誤りが物体の共起や意味的類似に引かれて起こると見る。野球の場面でバットがあれば、ボールもありそうだという prior が働き、実際の画素上の確認が弱くなる。既存研究には、instruction tuning、RLHF、後処理の corrector、decoding の調整などがある。しかしそれらは、モデルに新しい細粒度の視覚知識を与えるものではない場合が多い。著者らは、hallucination の原因を視覚面の細かい識別不足と捉え、画像から別途得られる視覚的な手がかりを利用する問題として定式化する。通常の LVLM が答え A を P(A | Q, I) として生成するなら、提案手法は visual evidence VE を加えて P(A | Q, I, VE) を扱う。この構図は、テキスト LLM に検索文書を与える retrieval augmentation と近いが、ここでは検索文書ではなく画像から抽出した物体・関係の記号列を使う。

## 提案手法

提案手法は Visual Evidence Prompting（VEP）である。まず入力画像を小型視覚モデルに通し、物体検出の結果や scene graph generation の結果を得る。物体検出では、同じ種類の物体が複数あれば「3 dogs, 1 cat」のように個数つきのラベル列へ整形する。scene graph generation では、主語・関係・目的語の三つ組を「dog near cup」「newspaper on table」のような短い自然言語片にする。次に、それらを「You can see {evidence} in the image. {question}?」という形で質問に連結し、元の画像とともに LVLM に入力する。式で書けば、LVLM の出力は A = f_LVLM(I, Q, VE)、visual evidence は VE = T[f_SVM(I)] と表される。ここで SVM は small visual model、T は構造化された視覚モデル出力を自然言語へ変換する処理である。この方法は training-free であり、LVLM の checkpoint、勾配、logits にアクセスしない。そのため、LLaVA のようなオープンモデルだけでなく、GPT-4V、Gemini、Claude のような API 型モデルにも使える。論文では主に DETR 系の物体検出モデルと RelTR による関係抽出を用いるが、OCR、segmentation、human-object interaction などの専門モデルにも拡張できると述べている。

## 結果

実験は、object hallucination を見る POPE、object・attribute・relation hallucination を含む AMBER、著者らが Visual Genome から構成した Relation Probing Evaluation（RPE）で行われた。対象モデルは、MiniGPT-4、LLaVA、Qwen-VL 系のオープンモデルに加え、GPT-4V、Gemini 1.5 Pro、Claude 3 などの API 型モデルを含む 11 種である。POPE の adversarial subset では、LLaVA-1.5-7B の accuracy が 80.23 から 87.43 へ上がった。MiniGPT-4-v2 でも 75.33 から 83.17 へ上がり、Claude 3 では 75.40 から 87.50 へ上がっている。AMBER の生成タスクでは、LLaVA-1.5-7B の CHAIR が 8.07 から 6.78 に下がり、画像キャプション中の存在しない物体記述が減った。RPE でも多くのモデルで関係 hallucination が減り、物体の有無だけでなく「持っている」「上にある」「見ている」のような関係判断にも効いた。既存手法との併用では、VCD と VEP を合わせた場合に POPE、AMBER の複数指標で改善が見られた。小型視覚モデルの ablation では、検出器の mAP が高いほど LVLM の object hallucination 減少も大きい傾向が出ている。一般的な multimodal understanding benchmark である MME と MMBench でも大きな悪化は見られず、むしろ小幅な改善が報告されている。制約としては、追加の視覚モデルを走らせる計算コスト、visual evidence の品質への依存、プロンプト設計への感度が挙げられる。

## 具体例

ある画像に、野球選手がバットを持ち、捕手がグローブを構えているが、ボール自体は写っていないとする。質問は「この画像にスポーツボールはありますか」である。通常の LVLM は、野球という場面やバットの存在に引かれて、画像内にボールがあると答えることがある。このとき attribution map を見ると、モデルは「Yes」や「sports ball」を生成する際に、ボールではなくバットの領域を強く見ている。VEP では、先に物体検出モデルが画像から「person」「bat」「glove」などを取り出し、必要なら scene graph generation が「player holding bat」のような関係も出す。その evidence を「画像には person、bat、glove が見える」という形で質問の前に添え、元の画像と一緒に LVLM へ渡す。期待される出力は「いいえ。画像には野球選手、バット、グローブはありますが、スポーツボールは見えません」といった答えである。間違えやすい点は、evidence に「baseball bat」が含まれることで、「baseball」という語だけに引かれて再びボールを想像してしまう場合である。論文の分析では、VEP を使うとモデルはバットをバットとして扱う方向に attention を修正し、存在しないボールへの誤った活性化を抑える傾向が示されている。

Visual Evidence Prompting Mitigates Hallucinations in Large Vision-Language Models

大規模 Vision-Language Model（LVLM）が画像中に存在しない物体・属性・関係を答える問題に対し、外部の小型視覚モデルが出した検出結果をプロンプトとして与える。
提案手法 Visual Evidence Prompting（VEP）は、LVLM の重みや logits に触れず、API 型モデルにも適用できる training-free な方法である。
POPE、AMBER、独自に構成した関係 hallucination 評価 RPE で、多くのオープンモデルと商用 API において object・attribute・relation hallucination を減らした。

Abstract（日本語訳）

大規模 Vision-Language Model（LVLM）は、視覚知覚と言語理解を統合し、文脈に根ざした出力を生成する点で大きな進歩を示してきた。しかし、こうした進歩にもかかわらず、LVLM にはなお hallucination の問題がある。すなわち、入力画像には存在しない内容を生成しがちである。本研究の調査によれば、そのような hallucination は、特に視覚場面が外観または意味の類似性を示す場合、視覚面での細粒度な理解の不足に由来することが多い。たとえば、自転車とオートバイ、野球のバットと野球ボールのような場合である。本研究では、小型の視覚モデルを用いて LVLM を補完する Visual Evidence Prompting という新しい方法により、このような hallucination が自然に緩和されることを示す。従来型の視覚モデルは人間との対話には長けていないが、細粒度な画像内容の知覚には優れている。領域専門モデルの専門的な出力をプロンプトとして記号化することで、汎用的な LVLM はその evidence を視覚知識として参照し、より正確な答えを生成できる。詳細な分析により、visual evidence はモデルが画像上の attribution と attention を調整・修正することを可能にし、誤った活性化を抑え、正しい活性化を強めることで視覚的な混同を減らすことが示された。広範な実験と詳細な分析は、本手法の有効性を示している。本研究が、LVLM における hallucination の理解を深め、この問題に取り組むための有用な見方を提供することを期待する。

論文の面白いところ

この論文の要点は、LVLM の hallucination をモデル内部の調整だけで直そうとしない点にある。画像質問応答で「野球ボールはあるか」と聞かれたとき、モデルがバットに反応して「ある」と答える例が示される。著者らは、この誤りを単なる言語側の癖ではなく、画像中の似た領域への過剰な注目として扱う。そこで、物体検出や scene graph generation のような小型視覚モデルを、LVLM の補助役に置く。小型モデルは会話や一般推論には弱いが、画像内の物体名や関係を細かく出すことには向いている。この役割分担は素朴だが、実用上は扱いやすい。LVLM をファインチューニングせず、プロンプトに evidence を足すだけなので、閉じた API モデルにも使えるためである。さらに、著者らは性能表だけでなく attribution map や confidence の分析を用い、visual evidence がどのように注意の向きを変えるかも調べている。単なる追加テキストにモデルが依存しているのではなく、画像・質問・evidence を合わせて判断していることを、ランダム画像への差し替え実験でも確認している。

問題設定

対象となる問題は、大規模 Vision-Language Model が画像にない内容を答える multimodal hallucination である。たとえば、画像にバットはあるがボールはない場合に、モデルが「スポーツボールがある」と答えるような誤りが含まれる。論文では、こうした誤りが物体の共起や意味的類似に引かれて起こると見る。野球の場面でバットがあれば、ボールもありそうだという prior が働き、実際の画素上の確認が弱くなる。既存研究には、instruction tuning、RLHF、後処理の corrector、decoding の調整などがある。しかしそれらは、モデルに新しい細粒度の視覚知識を与えるものではない場合が多い。著者らは、hallucination の原因を視覚面の細かい識別不足と捉え、画像から別途得られる視覚的な手がかりを利用する問題として定式化する。通常の LVLM が答え A を P(A | Q, I) として生成するなら、提案手法は visual evidence VE を加えて P(A | Q, I, VE) を扱う。この構図は、テキスト LLM に検索文書を与える retrieval augmentation と近いが、ここでは検索文書ではなく画像から抽出した物体・関係の記号列を使う。

提案手法

提案手法は Visual Evidence Prompting（VEP）である。まず入力画像を小型視覚モデルに通し、物体検出の結果や scene graph generation の結果を得る。物体検出では、同じ種類の物体が複数あれば「3 dogs, 1 cat」のように個数つきのラベル列へ整形する。scene graph generation では、主語・関係・目的語の三つ組を「dog near cup」「newspaper on table」のような短い自然言語片にする。次に、それらを「You can see {evidence} in the image. {question}?」という形で質問に連結し、元の画像とともに LVLM に入力する。式で書けば、LVLM の出力は A = f_LVLM(I, Q, VE)、visual evidence は VE = T[f_SVM(I)] と表される。ここで SVM は small visual model、T は構造化された視覚モデル出力を自然言語へ変換する処理である。この方法は training-free であり、LVLM の checkpoint、勾配、logits にアクセスしない。そのため、LLaVA のようなオープンモデルだけでなく、GPT-4V、Gemini、Claude のような API 型モデルにも使える。論文では主に DETR 系の物体検出モデルと RelTR による関係抽出を用いるが、OCR、segmentation、human-object interaction などの専門モデルにも拡張できると述べている。

結果

実験は、object hallucination を見る POPE、object・attribute・relation hallucination を含む AMBER、著者らが Visual Genome から構成した Relation Probing Evaluation（RPE）で行われた。対象モデルは、MiniGPT-4、LLaVA、Qwen-VL 系のオープンモデルに加え、GPT-4V、Gemini 1.5 Pro、Claude 3 などの API 型モデルを含む 11 種である。POPE の adversarial subset では、LLaVA-1.5-7B の accuracy が 80.23 から 87.43 へ上がった。MiniGPT-4-v2 でも 75.33 から 83.17 へ上がり、Claude 3 では 75.40 から 87.50 へ上がっている。AMBER の生成タスクでは、LLaVA-1.5-7B の CHAIR が 8.07 から 6.78 に下がり、画像キャプション中の存在しない物体記述が減った。RPE でも多くのモデルで関係 hallucination が減り、物体の有無だけでなく「持っている」「上にある」「見ている」のような関係判断にも効いた。既存手法との併用では、VCD と VEP を合わせた場合に POPE、AMBER の複数指標で改善が見られた。小型視覚モデルの ablation では、検出器の mAP が高いほど LVLM の object hallucination 減少も大きい傾向が出ている。一般的な multimodal understanding benchmark である MME と MMBench でも大きな悪化は見られず、むしろ小幅な改善が報告されている。制約としては、追加の視覚モデルを走らせる計算コスト、visual evidence の品質への依存、プロンプト設計への感度が挙げられる。

具体例

ある画像に、野球選手がバットを持ち、捕手がグローブを構えているが、ボール自体は写っていないとする。質問は「この画像にスポーツボールはありますか」である。通常の LVLM は、野球という場面やバットの存在に引かれて、画像内にボールがあると答えることがある。このとき attribution map を見ると、モデルは「Yes」や「sports ball」を生成する際に、ボールではなくバットの領域を強く見ている。VEP では、先に物体検出モデルが画像から「person」「bat」「glove」などを取り出し、必要なら scene graph generation が「player holding bat」のような関係も出す。その evidence を「画像には person、bat、glove が見える」という形で質問の前に添え、元の画像と一緒に LVLM へ渡す。期待される出力は「いいえ。画像には野球選手、バット、グローブはありますが、スポーツボールは見えません」といった答えである。間違えやすい点は、evidence に「baseball bat」が含まれることで、「baseball」という語だけに引かれて再びボールを想像してしまう場合である。論文の分析では、VEP を使うとモデルはバットをバットとして扱う方向に attention を修正し、存在しないボールへの誤った活性化を抑える傾向が示されている。