Vision-Language Models Struggle to Align Entities across Modalities

生成日: 2026-05-24 02:20

# Vision-Language Models Struggle to Align Entities across Modalities
- 視覚言語モデル（Vision-Language Model, VLM）が、画像中の物体とテキスト中の同じ物体を対応づけられるかを調べた論文である。
- 著者らは、合成された3DシーンとJSON形式の属性記述を組み合わせたベンチマーク MATE を作り、5,500件の質問応答例で評価した。
- 人間はほぼ完全に解ける一方、主要なVLMは物体数が増えるほど精度を落とし、単純な見た目の認識とは別の難しさがあることが示された。

## 論文の面白いところ

この論文のよい点は、マルチモーダル理解の弱点を、かなり小さな問題に切り出していることである。対象は自然画像ではなく、CLEVR系の単純な3D物体である。物体は球、立方体、円柱、円錐などで、色、形、材質、大きさ、座標、名前をもつ。したがって、評価の主眼は「猫を認識できるか」ではなく、「画像で見た赤い円柱が、テキスト中のどの Object_i かを選べるか」に置かれる。この切り分けにより、画像認識の失敗、テキスト読解の失敗、両者の対応づけの失敗を分けて観察しやすい。結果として、VLMは単一モダリティ内の探索では高い精度を出すが、画像とテキストをまたぐと大きく崩れることが見える。これは、実用的なマルチモーダル応用でしばしば暗黙に仮定される能力を、素朴な形で検査した研究といえる。自動運転、視覚情報を含むコード生成、偽情報検出などにおいて、同じ対象を別表現の間で結びつける能力は基礎的であり、この論文はその基礎を測る物差しを与えている。

## 問題設定

本論文が扱う課題は、cross-modal entity linking、すなわち異なるモダリティに現れる同一実体の対応づけである。画像には複数の物体があり、テキストには同じ物体群の属性がJSONとして与えられる。ただし、すべての属性が両方に現れるわけではない。たとえば色は画像だけにあり、名前はテキストだけにある。質問は、一方のモダリティで一意に物体を指す属性を手掛かりにし、もう一方のモダリティにしかない属性を答えさせる形で作られる。画像からテキストへ向かう場合は、「赤い物体の名前は何か」と問う。テキストから画像へ向かう場合は、「Object_2 の色は何か」と問う。これらは見かけよりも複雑で、まず手掛かりとなる物体を探し、次にその形や大きさなどの共有属性を使って別表現の同じ物体を探し、最後に求められた属性を返す必要がある。

## 提案手法

著者らは、この能力を評価するために MATE というベンチマークを構築した。MATE は5,500件の質問応答例からなり、各例は3個から10個の3D幾何物体を含む。画像側には色、形、材質、大きさなどが視覚的に現れ、テキスト側には物体名、形、大きさ、材質、3D座標、回転角などがJSONで記される。評価は image-to-text と text-to-image の二方向に分けられる。前者では画像中の属性を手掛かりにしてテキスト中の属性を答え、後者ではテキスト中の属性を手掛かりにして画像中の属性を答える。ポインタとなる属性は、曖昧さが生じないよう、各シーンで一つの物体だけを指すように作られる。データは物体数、タスク方向、属性の組み合わせが偏らないように配分されている。著者らは、LLaVA、Molmo、Llama 3.2、Qwen2-VL、Qwen2.5-VL、GPT-4o、Claude 3.5、Gemini 1.5 などを評価し、人間評価も比較対象に加えた。さらに、単一モダリティ内だけで解ける派生タスクと、Chain-of-Thought prompting を用いた条件も調べている。

## 結果

人間の平均精度は97.9%で、image-to-text と text-to-image の差もほとんどなかった。二例提示の条件で最もよい公開重みモデルは Qwen2.5-VL で、平均精度は80.1%であった。商用モデルでは Claude 3.5 が83.3%で最も高く、GPT-4o は77.8%、Gemini 1.5 は67.2%であった。いずれもランダムよりは十分に高いが、人間との差は残る。多くのモデルでは text-to-image の方が image-to-text より解きやすく、画像中の手掛かりからJSON上の名前や座標へ到達する方向でより苦戦した。物体数が3個から10個へ増えると、VLMの精度は明確に下がるが、人間の精度はほぼ保たれる。単一モダリティ内の探索では、Qwen2.5-VL、GPT-4o、Claude 3.5 などはほぼ完全に近い精度を示したため、主な失敗は視覚探索やJSON読解そのものではなく、両者を結ぶ段階にあると考えられる。Chain-of-Thought prompting は Molmo と Llama 3.2 には大きな改善をもたらしたが、上位モデルでは効果が小さく、物体数が多い場合の性能低下は残った。自己反省型モデル VL-Rethinker-7B も、基盤である Qwen2.5-VL と大きく変わらず、この課題には単なる推論手順の明示だけでは足りないことが示唆される。

## 具体例

たとえば、画面に赤い円柱、緑の球、灰色の立方体、青い円錐が並んでいるとする。JSONにはそれぞれの物体について、`Object_0`、`Object_1` といった名前、形、大きさ、材質、3D座標、回転角が書かれているが、色は含まれていない。質問が「赤い物体の名前は何か」であれば、手法またはモデルはまず画像の中から赤い物体を探す。次に、その物体が円柱であり、たとえば金属製で大きさが0.7であるといった、JSONにも現れる属性を使う。JSON中で同じ属性をもつ項目が `Object_0` であれば、期待される出力は `{"answer": "Object_0"}` となる。間違えやすいのは、赤い物体そのものは見つけられても、JSON側で似た属性をもつ別の物体を選んでしまう場合である。とくに物体が多く、形や材質が重なると、色以外の手掛かりを組み合わせなければならない。3D座標だけが決め手になる場合もあり、この論文では上位モデルでもそこを安定して使いこなせないことが示されている。人間には単純な照合作業に見えるが、現在のVLMにとっては画像中の特徴とテキスト中の属性を同一物体のもとに束ねる処理がまだ弱い。

Vision-Language Models Struggle to Align Entities across Modalities

視覚言語モデル（Vision-Language Model, VLM）が、画像中の物体とテキスト中の同じ物体を対応づけられるかを調べた論文である。
著者らは、合成された3DシーンとJSON形式の属性記述を組み合わせたベンチマーク MATE を作り、5,500件の質問応答例で評価した。
人間はほぼ完全に解ける一方、主要なVLMは物体数が増えるほど精度を落とし、単純な見た目の認識とは別の難しさがあることが示された。

論文の面白いところ

この論文のよい点は、マルチモーダル理解の弱点を、かなり小さな問題に切り出していることである。対象は自然画像ではなく、CLEVR系の単純な3D物体である。物体は球、立方体、円柱、円錐などで、色、形、材質、大きさ、座標、名前をもつ。したがって、評価の主眼は「猫を認識できるか」ではなく、「画像で見た赤い円柱が、テキスト中のどの Object_i かを選べるか」に置かれる。この切り分けにより、画像認識の失敗、テキスト読解の失敗、両者の対応づけの失敗を分けて観察しやすい。結果として、VLMは単一モダリティ内の探索では高い精度を出すが、画像とテキストをまたぐと大きく崩れることが見える。これは、実用的なマルチモーダル応用でしばしば暗黙に仮定される能力を、素朴な形で検査した研究といえる。自動運転、視覚情報を含むコード生成、偽情報検出などにおいて、同じ対象を別表現の間で結びつける能力は基礎的であり、この論文はその基礎を測る物差しを与えている。

問題設定

本論文が扱う課題は、cross-modal entity linking、すなわち異なるモダリティに現れる同一実体の対応づけである。画像には複数の物体があり、テキストには同じ物体群の属性がJSONとして与えられる。ただし、すべての属性が両方に現れるわけではない。たとえば色は画像だけにあり、名前はテキストだけにある。質問は、一方のモダリティで一意に物体を指す属性を手掛かりにし、もう一方のモダリティにしかない属性を答えさせる形で作られる。画像からテキストへ向かう場合は、「赤い物体の名前は何か」と問う。テキストから画像へ向かう場合は、「Object_2 の色は何か」と問う。これらは見かけよりも複雑で、まず手掛かりとなる物体を探し、次にその形や大きさなどの共有属性を使って別表現の同じ物体を探し、最後に求められた属性を返す必要がある。

提案手法

著者らは、この能力を評価するために MATE というベンチマークを構築した。MATE は5,500件の質問応答例からなり、各例は3個から10個の3D幾何物体を含む。画像側には色、形、材質、大きさなどが視覚的に現れ、テキスト側には物体名、形、大きさ、材質、3D座標、回転角などがJSONで記される。評価は image-to-text と text-to-image の二方向に分けられる。前者では画像中の属性を手掛かりにしてテキスト中の属性を答え、後者ではテキスト中の属性を手掛かりにして画像中の属性を答える。ポインタとなる属性は、曖昧さが生じないよう、各シーンで一つの物体だけを指すように作られる。データは物体数、タスク方向、属性の組み合わせが偏らないように配分されている。著者らは、LLaVA、Molmo、Llama 3.2、Qwen2-VL、Qwen2.5-VL、GPT-4o、Claude 3.5、Gemini 1.5 などを評価し、人間評価も比較対象に加えた。さらに、単一モダリティ内だけで解ける派生タスクと、Chain-of-Thought prompting を用いた条件も調べている。

結果

人間の平均精度は97.9%で、image-to-text と text-to-image の差もほとんどなかった。二例提示の条件で最もよい公開重みモデルは Qwen2.5-VL で、平均精度は80.1%であった。商用モデルでは Claude 3.5 が83.3%で最も高く、GPT-4o は77.8%、Gemini 1.5 は67.2%であった。いずれもランダムよりは十分に高いが、人間との差は残る。多くのモデルでは text-to-image の方が image-to-text より解きやすく、画像中の手掛かりからJSON上の名前や座標へ到達する方向でより苦戦した。物体数が3個から10個へ増えると、VLMの精度は明確に下がるが、人間の精度はほぼ保たれる。単一モダリティ内の探索では、Qwen2.5-VL、GPT-4o、Claude 3.5 などはほぼ完全に近い精度を示したため、主な失敗は視覚探索やJSON読解そのものではなく、両者を結ぶ段階にあると考えられる。Chain-of-Thought prompting は Molmo と Llama 3.2 には大きな改善をもたらしたが、上位モデルでは効果が小さく、物体数が多い場合の性能低下は残った。自己反省型モデル VL-Rethinker-7B も、基盤である Qwen2.5-VL と大きく変わらず、この課題には単なる推論手順の明示だけでは足りないことが示唆される。

具体例

たとえば、画面に赤い円柱、緑の球、灰色の立方体、青い円錐が並んでいるとする。JSONにはそれぞれの物体について、Object_0、Object_1 といった名前、形、大きさ、材質、3D座標、回転角が書かれているが、色は含まれていない。質問が「赤い物体の名前は何か」であれば、手法またはモデルはまず画像の中から赤い物体を探す。次に、その物体が円柱であり、たとえば金属製で大きさが0.7であるといった、JSONにも現れる属性を使う。JSON中で同じ属性をもつ項目が Object_0 であれば、期待される出力は {"answer": "Object_0"} となる。間違えやすいのは、赤い物体そのものは見つけられても、JSON側で似た属性をもつ別の物体を選んでしまう場合である。とくに物体が多く、形や材質が重なると、色以外の手掛かりを組み合わせなければならない。3D座標だけが決め手になる場合もあり、この論文では上位モデルでもそこを安定して使いこなせないことが示されている。人間には単純な照合作業に見えるが、現在のVLMにとっては画像中の特徴とテキスト中の属性を同一物体のもとに束ねる処理がまだ弱い。