Coling-UniA at SciVQA 2025: Few-Shot Example Retrieval and Confidence-Informed Ensembling for Multimodal Large Language Models

生成日: 2026-05-24 02:20

# Coling-UniA at SciVQA 2025: Few-Shot Example Retrieval and Confidence-Informed Ensembling for Multimodal Large Language Models

- 科学論文の図に対する Visual Question Answering（VQA）を、ファインチューニングなしの Multimodal Large Language Model（MLLM）で扱う共有タスク参加システムである。
- InternVL3-78B と Pixtral-Large-Instruct-2411 を用い、few-shot 例の検索方法、質問種別ごとのモデル選択、信頼度にもとづくアンサンブルを組み合わせる。
- 公式テストでは平均 F1 85.12 を得て 7 チーム中 3 位となり、単一設定よりも信頼度を使った切り替えが有効であることを示した。

## Abstract（日本語訳）

本論文は、科学的 Visual Question Answering を対象とする SciVQA 2025 共有タスクにおける著者らのシステムを述べる。著者らのシステムは、2 つの Multimodal Large Language Model と、複数の few-shot 例検索戦略によるアンサンブルを用いる。モデルと few-shot 設定は、図の種類と質問の種類にもとづいて選択される。さらに、モデルの信頼度にもとづいて回答を選択する。ブラインドテストデータでは、著者らのシステムは ROUGE-1、ROUGE-L、BERTS にわたる平均 F1 スコア 85.12 を達成し、7 チーム中 3 位となった。コードは公開されている。

## 論文の面白いところ

この論文は、新しいモデルを学習するのではなく、既存の MLLM をどう使い分けるかに焦点を置いている。科学論文の図は、写真や一般的な文書画像とは異なり、折れ線グラフ、散布図、ツリー、ニューラルネットワーク図などが混在する。同じ VQA でも、はい・いいえで答えられる質問と、図から数値やラベルを読み取る質問とでは難しさが異なる。著者らはこの差を、ひとつのモデルに平均的に任せるのではなく、質問種別と図種別に応じて構成を切り替える問題として扱った。さらに、モデル自身の出力確率から信頼度を近似し、高信頼の回答はそのまま採用する。残りの例だけを別の設定へ回すため、アンサンブルが単なる多数決ではなく、処理の分担として働いている。実務上も、図表 QA をすぐにファインチューニングできない場面で参考になる設計である。

## 問題設定

対象は SciVQA 2025 共有タスクであり、科学論文に現れる図と、それに関する自然言語質問が入力となる。データセットは 3000 枚の実世界の科学図から成り、ACL-Fig と SciGraphQA から集められている。各図には、視覚的特徴に関する質問と非視覚的な情報に関する質問が付く。質問形式には、二値質問、4 択質問、自由な答えを持つ質問、図だけでは答えられない質問が含まれる。既存の chart QA 研究では、図表理解に特化して調整されたモデルを用いることが多い。これに対し、本研究はオープンウェイトの MLLM を zero-shot または few-shot で用い、ファインチューニングを行わない。したがって、問題は「限られた設定変更だけで、図と質問の多様性にどう対応するか」と言える。

## 提案手法

システムは InternVL3-78B と Pixtral-Large-Instruct-2411 を用いる。各モデルには、図、質問、キャプション、図種別、サブ図の有無など、共有タスクで与えられるメタデータを入力する。few-shot では、訓練データから入力に似た例を取り出し、プロンプトに加える。類似例の検索には、質問文の SBERT 埋め込みによる方法と、CLIP または BLIP-2 による質問・画像の類似度を使う方法が試された。検索対象は、同じ図種別に絞る場合と、訓練集合全体から探す場合に分けられる。最終システムでは、まず InternVL3-78B の特定設定で信頼度 0.9 以上の回答を採用する。この信頼度は、生成された回答トークンの平均 log probability を指数化して近似した値である。残りの質問については、二値質問には Pixtral の 2-shot 質問類似検索、自由回答型には Pixtral の 2-shot 質問・画像類似検索、それ以外には InternVL3-78B の 1-shot 質問類似検索を使う。

## 結果

開発セットでは、単一モデルの単一設定よりもアンサンブルが高い ROUGE-1 F1 を示した。InternVL3-78B の 1-shot BLIP-2 類似例検索は開発セットで ROUGE-1 F1 75.0 であったのに対し、質問・図種別アンサンブルは 76.6、信頼度つきアンサンブルは 76.9 であった。テストセットでも同じ傾向があり、単一の InternVL3-78B 設定は ROUGE-1 F1 77.2、質問・図種別アンサンブルは 77.7、信頼度つきアンサンブルは 78.6 であった。公式評価では、ROUGE-1 F1 78.62、ROUGE-L F1 78.56、BERTS F1 98.17、平均 85.12 を得た。順位は 7 チーム中 3 位で、2 位との差は小さい。few-shot 例の追加は概ね有効で、とくに答えられない質問の識別に寄与した。一方で、自由回答型、とくに画像の視覚的特徴から答えを取り出す質問は難しいままであった。著者らはまた、SciVQA の一部の図が既存 MLLM の学習時に見えていた可能性と、答えられない質問の分布が実運用とは異なる可能性を制約として挙げている。

## 具体例

たとえば、論文中の折れ線グラフを入力として、「青い線が最も高い値を取る時点はどこか」と尋ねる場合を考える。システムは画像と質問に加えて、キャプション、図が line chart であること、複数サブ図を含むかどうかをプロンプトに入れる。few-shot 設定では、訓練データから似た質問、または似た質問・画像の組を探し、その例の回答形式を一緒に示す。モデルは図中の凡例と軸を読み、青い線のピーク位置を答える。期待される出力は、説明文ではなく、たとえば「epoch 40」や「2018」のような短い回答である。図だけでその情報が読み取れない場合は、外部知識で補わず、提供されたデータだけでは答えられないと返す必要がある。間違えやすい点は、キャプションに出る実験名を答えてしまうこと、別の色の線を読むこと、または目盛りを補間しすぎることである。この論文の信頼度つきアンサンブルは、モデルが自信を持つ容易な例を先に確定し、曖昧な例を質問種別に合った構成へ送ることで、そうした誤りを減らそうとする。

Coling-UniA at SciVQA 2025: Few-Shot Example Retrieval and Confidence-Informed Ensembling for Multimodal Large Language Models

科学論文の図に対する Visual Question Answering（VQA）を、ファインチューニングなしの Multimodal Large Language Model（MLLM）で扱う共有タスク参加システムである。
InternVL3-78B と Pixtral-Large-Instruct-2411 を用い、few-shot 例の検索方法、質問種別ごとのモデル選択、信頼度にもとづくアンサンブルを組み合わせる。
公式テストでは平均 F1 85.12 を得て 7 チーム中 3 位となり、単一設定よりも信頼度を使った切り替えが有効であることを示した。

Abstract（日本語訳）

本論文は、科学的 Visual Question Answering を対象とする SciVQA 2025 共有タスクにおける著者らのシステムを述べる。著者らのシステムは、2 つの Multimodal Large Language Model と、複数の few-shot 例検索戦略によるアンサンブルを用いる。モデルと few-shot 設定は、図の種類と質問の種類にもとづいて選択される。さらに、モデルの信頼度にもとづいて回答を選択する。ブラインドテストデータでは、著者らのシステムは ROUGE-1、ROUGE-L、BERTS にわたる平均 F1 スコア 85.12 を達成し、7 チーム中 3 位となった。コードは公開されている。

論文の面白いところ

この論文は、新しいモデルを学習するのではなく、既存の MLLM をどう使い分けるかに焦点を置いている。科学論文の図は、写真や一般的な文書画像とは異なり、折れ線グラフ、散布図、ツリー、ニューラルネットワーク図などが混在する。同じ VQA でも、はい・いいえで答えられる質問と、図から数値やラベルを読み取る質問とでは難しさが異なる。著者らはこの差を、ひとつのモデルに平均的に任せるのではなく、質問種別と図種別に応じて構成を切り替える問題として扱った。さらに、モデル自身の出力確率から信頼度を近似し、高信頼の回答はそのまま採用する。残りの例だけを別の設定へ回すため、アンサンブルが単なる多数決ではなく、処理の分担として働いている。実務上も、図表 QA をすぐにファインチューニングできない場面で参考になる設計である。

問題設定

対象は SciVQA 2025 共有タスクであり、科学論文に現れる図と、それに関する自然言語質問が入力となる。データセットは 3000 枚の実世界の科学図から成り、ACL-Fig と SciGraphQA から集められている。各図には、視覚的特徴に関する質問と非視覚的な情報に関する質問が付く。質問形式には、二値質問、4 択質問、自由な答えを持つ質問、図だけでは答えられない質問が含まれる。既存の chart QA 研究では、図表理解に特化して調整されたモデルを用いることが多い。これに対し、本研究はオープンウェイトの MLLM を zero-shot または few-shot で用い、ファインチューニングを行わない。したがって、問題は「限られた設定変更だけで、図と質問の多様性にどう対応するか」と言える。

提案手法

システムは InternVL3-78B と Pixtral-Large-Instruct-2411 を用いる。各モデルには、図、質問、キャプション、図種別、サブ図の有無など、共有タスクで与えられるメタデータを入力する。few-shot では、訓練データから入力に似た例を取り出し、プロンプトに加える。類似例の検索には、質問文の SBERT 埋め込みによる方法と、CLIP または BLIP-2 による質問・画像の類似度を使う方法が試された。検索対象は、同じ図種別に絞る場合と、訓練集合全体から探す場合に分けられる。最終システムでは、まず InternVL3-78B の特定設定で信頼度 0.9 以上の回答を採用する。この信頼度は、生成された回答トークンの平均 log probability を指数化して近似した値である。残りの質問については、二値質問には Pixtral の 2-shot 質問類似検索、自由回答型には Pixtral の 2-shot 質問・画像類似検索、それ以外には InternVL3-78B の 1-shot 質問類似検索を使う。

結果

開発セットでは、単一モデルの単一設定よりもアンサンブルが高い ROUGE-1 F1 を示した。InternVL3-78B の 1-shot BLIP-2 類似例検索は開発セットで ROUGE-1 F1 75.0 であったのに対し、質問・図種別アンサンブルは 76.6、信頼度つきアンサンブルは 76.9 であった。テストセットでも同じ傾向があり、単一の InternVL3-78B 設定は ROUGE-1 F1 77.2、質問・図種別アンサンブルは 77.7、信頼度つきアンサンブルは 78.6 であった。公式評価では、ROUGE-1 F1 78.62、ROUGE-L F1 78.56、BERTS F1 98.17、平均 85.12 を得た。順位は 7 チーム中 3 位で、2 位との差は小さい。few-shot 例の追加は概ね有効で、とくに答えられない質問の識別に寄与した。一方で、自由回答型、とくに画像の視覚的特徴から答えを取り出す質問は難しいままであった。著者らはまた、SciVQA の一部の図が既存 MLLM の学習時に見えていた可能性と、答えられない質問の分布が実運用とは異なる可能性を制約として挙げている。

具体例

たとえば、論文中の折れ線グラフを入力として、「青い線が最も高い値を取る時点はどこか」と尋ねる場合を考える。システムは画像と質問に加えて、キャプション、図が line chart であること、複数サブ図を含むかどうかをプロンプトに入れる。few-shot 設定では、訓練データから似た質問、または似た質問・画像の組を探し、その例の回答形式を一緒に示す。モデルは図中の凡例と軸を読み、青い線のピーク位置を答える。期待される出力は、説明文ではなく、たとえば「epoch 40」や「2018」のような短い回答である。図だけでその情報が読み取れない場合は、外部知識で補わず、提供されたデータだけでは答えられないと返す必要がある。間違えやすい点は、キャプションに出る実験名を答えてしまうこと、別の色の線を読むこと、または目盛りを補間しすぎることである。この論文の信頼度つきアンサンブルは、モデルが自信を持つ容易な例を先に確定し、曖昧な例を質問種別に合った構成へ送ることで、そうした誤りを減らそうとする。