Untitled

生成日: 2026-05-24 02:20

# Untitled
## title

Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Language Models

source_url: https://aclanthology.org/2025.xllm-1.6/

doi: 10.18653/v1/2025.xllm-1.6

generated_at: 2026-05-07T04:56:13+00:00

- 視覚的な対話で、画像を指す表現を本文だけから検出する手法を検討した論文である。
- Llama 3.1 8B を QLoRA で微調整し、発話をそのまま再生成しながら参照表現の範囲に境界記号を挿入させる。
- A Game Of Sorts と PhotoBook の二つのデータで、対話履歴を加えるほど概して性能が上がり、生成型の方法は ModernBERT による系列ラベリングを上回った。

## 論文の面白いところ

この論文の焦点は、視覚に関わる課題を、あえてテキストだけでどこまで扱えるかに置かれている。対象は、参加者が画像を見ながら会話する場面での参照表現検出である。たとえば「それ」「右の犬」「暗い灰色のもの」のような表現が、画面上のどの対象に関わる候補なのかをまず見つける。通常なら画像を入力に含めたくなる課題だが、本論文では言語的文脈だけでもかなりの手掛かりがあることを示す。とくに、直前の発話を何件まで見るかを変え、対話履歴が検出に及ぼす影響を丁寧に測っている点がよい。結果は単純で、履歴を増やすと多くの場合で性能は改善するが、改善幅はしだいに小さくなる。これは実用上も扱いやすい知見で、長い履歴を無制限に入れるより、数発話分を入れるだけでも効果があることを示している。

## 問題設定

参照表現検出は、文書や会話の中から何かを指す語句の範囲を見つける課題である。本論文では、その「何か」を、会話の視覚的文脈に存在する画像または画像内の対象に限っている。入力となる対話は、複数の画像を見ている二人の参加者による発話列である。視覚文脈そのものはタスクの定義には含まれるが、提案手法は実験上、画像を直接見ない。モデルが見るのは、現在の発話と、それ以前の発話履歴である。出力は、現在の発話のどの文字範囲が視覚的な参照表現に当たるかという境界である。この設定では、「it」や「that」のような短い語が難しい。直前に何が話題になっていたかを知らなければ、それが画像を指すのか、単なる慣用的な言い回しなのかを判別しにくいためである。

## 提案手法

著者らは、参照表現検出を自己回帰型言語モデルの次トークン予測として定式化する。モデルは現在の発話を写し取るように生成し、その途中で参照表現の開始と終了を示す記号を差し込む。論文中の例では、境界記号として `>>` と `<<` を用いる。たとえば `the dark grey one` が画像を指す表現であれば、出力は `>> the dark grey << one` のようになる。対象モデルは Llama 3.1 8B で、QLoRA によって少ない計算資源で微調整される。比較対象として、構文解析で名詞句を抽出する単純な方法と、ModernBERT-large を IOB 形式の系列ラベリングに微調整する方法も用意されている。実験では、直前 0 件、3 件、7 件、19 件の発話を文脈として与え、文脈量が性能に与える差を調べている。

## 結果

五分割交差検証では、Llama 3.1 8B による生成型の方法が高い性能を示した。A Game Of Sorts では、文脈なしの F1 が 0.863、直前 19 発話を加えた場合の F1 が 0.902 であった。PhotoBook GOLD では、文脈なしの F1 が 0.930、直前 19 発話では 0.940 であった。ModernBERT-large も競争的ではあるが、同じ設定ではおおむね Llama に及ばない。名詞句抽出だけの基準線は再現率こそ一定程度あるものの、精度が低く、F1 は A Game Of Sorts で 0.535、PhotoBook GOLD で 0.465 にとどまった。データ間転移でも、A Game Of Sorts で学習して PhotoBook GOLD に適用した場合、直前 19 発話の Llama は F1 0.865 を得た。逆方向の PhotoBook GOLD から A Game Of Sorts への転移では F1 0.780 であり、A Game Of Sorts のほうが、より広い表現を学ばせる訓練データになっている可能性がある。

## 具体例

二人の参加者が、同じ九枚の車の画像を別々の配置で見ながら、好みの順に並べるとする。直前の会話で一人が「二番目は薄い灰色の古い型に見える車がよい」と言い、相手が「それは底が高そうだ」と答えた後、次の発話が「では三番目は暗い灰色のでよいですか」だったとする。このとき、手法は現在の発話を再生成しながら、「暗い灰色の」という範囲を画像を指す参照表現として囲む。期待される出力は、発話の意味を変えずに、参照表現の前後へ境界記号を入れたものになる。重要なのは、モデルが画像そのものを見ていない点である。文脈から、会話の主題が車の画像であり、色を述べる語句が候補画像の識別に使われていると推定する。間違えやすいのは、「それで行きましょう」の「それ」のような短い代名詞である。前の発話を見れば画像を指すことがあるが、同じ形の表現が単なる決定や相づちを表す場合もある。したがって、この課題では発話単体よりも、少し前から続く会話の流れが大きな意味を持つ。

Untitled

title

Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Language Models

source_url: https://aclanthology.org/2025.xllm-1.6/

doi: 10.18653/v1/2025.xllm-1.6

generated_at: 2026-05-07T04:56:13+00:00

視覚的な対話で、画像を指す表現を本文だけから検出する手法を検討した論文である。
Llama 3.1 8B を QLoRA で微調整し、発話をそのまま再生成しながら参照表現の範囲に境界記号を挿入させる。
A Game Of Sorts と PhotoBook の二つのデータで、対話履歴を加えるほど概して性能が上がり、生成型の方法は ModernBERT による系列ラベリングを上回った。

論文の面白いところ

この論文の焦点は、視覚に関わる課題を、あえてテキストだけでどこまで扱えるかに置かれている。対象は、参加者が画像を見ながら会話する場面での参照表現検出である。たとえば「それ」「右の犬」「暗い灰色のもの」のような表現が、画面上のどの対象に関わる候補なのかをまず見つける。通常なら画像を入力に含めたくなる課題だが、本論文では言語的文脈だけでもかなりの手掛かりがあることを示す。とくに、直前の発話を何件まで見るかを変え、対話履歴が検出に及ぼす影響を丁寧に測っている点がよい。結果は単純で、履歴を増やすと多くの場合で性能は改善するが、改善幅はしだいに小さくなる。これは実用上も扱いやすい知見で、長い履歴を無制限に入れるより、数発話分を入れるだけでも効果があることを示している。

問題設定

参照表現検出は、文書や会話の中から何かを指す語句の範囲を見つける課題である。本論文では、その「何か」を、会話の視覚的文脈に存在する画像または画像内の対象に限っている。入力となる対話は、複数の画像を見ている二人の参加者による発話列である。視覚文脈そのものはタスクの定義には含まれるが、提案手法は実験上、画像を直接見ない。モデルが見るのは、現在の発話と、それ以前の発話履歴である。出力は、現在の発話のどの文字範囲が視覚的な参照表現に当たるかという境界である。この設定では、「it」や「that」のような短い語が難しい。直前に何が話題になっていたかを知らなければ、それが画像を指すのか、単なる慣用的な言い回しなのかを判別しにくいためである。

提案手法

著者らは、参照表現検出を自己回帰型言語モデルの次トークン予測として定式化する。モデルは現在の発話を写し取るように生成し、その途中で参照表現の開始と終了を示す記号を差し込む。論文中の例では、境界記号として >> と << を用いる。たとえば the dark grey one が画像を指す表現であれば、出力は >> the dark grey << one のようになる。対象モデルは Llama 3.1 8B で、QLoRA によって少ない計算資源で微調整される。比較対象として、構文解析で名詞句を抽出する単純な方法と、ModernBERT-large を IOB 形式の系列ラベリングに微調整する方法も用意されている。実験では、直前 0 件、3 件、7 件、19 件の発話を文脈として与え、文脈量が性能に与える差を調べている。

結果

五分割交差検証では、Llama 3.1 8B による生成型の方法が高い性能を示した。A Game Of Sorts では、文脈なしの F1 が 0.863、直前 19 発話を加えた場合の F1 が 0.902 であった。PhotoBook GOLD では、文脈なしの F1 が 0.930、直前 19 発話では 0.940 であった。ModernBERT-large も競争的ではあるが、同じ設定ではおおむね Llama に及ばない。名詞句抽出だけの基準線は再現率こそ一定程度あるものの、精度が低く、F1 は A Game Of Sorts で 0.535、PhotoBook GOLD で 0.465 にとどまった。データ間転移でも、A Game Of Sorts で学習して PhotoBook GOLD に適用した場合、直前 19 発話の Llama は F1 0.865 を得た。逆方向の PhotoBook GOLD から A Game Of Sorts への転移では F1 0.780 であり、A Game Of Sorts のほうが、より広い表現を学ばせる訓練データになっている可能性がある。

具体例

二人の参加者が、同じ九枚の車の画像を別々の配置で見ながら、好みの順に並べるとする。直前の会話で一人が「二番目は薄い灰色の古い型に見える車がよい」と言い、相手が「それは底が高そうだ」と答えた後、次の発話が「では三番目は暗い灰色のでよいですか」だったとする。このとき、手法は現在の発話を再生成しながら、「暗い灰色の」という範囲を画像を指す参照表現として囲む。期待される出力は、発話の意味を変えずに、参照表現の前後へ境界記号を入れたものになる。重要なのは、モデルが画像そのものを見ていない点である。文脈から、会話の主題が車の画像であり、色を述べる語句が候補画像の識別に使われていると推定する。間違えやすいのは、「それで行きましょう」の「それ」のような短い代名詞である。前の発話を見れば画像を指すことがあるが、同じ形の表現が単なる決定や相づちを表す場合もある。したがって、この課題では発話単体よりも、少し前から続く会話の流れが大きな意味を持つ。