Predicting Implicit Arguments in Procedural Video Instructions

生成日:

Predicting Implicit Arguments in Procedural Video Instructions

Abstract(日本語訳)

手順テキストは、AI が文脈と行動系列について推論する能力を高める助けとなる。これを Semantic Role Labeling(SRL)に変換すると、{verb, what, where/with} のような述語・項構造を特定することで、個々の手順の理解が改善される。手順指示はしばしば高度に省略的である。たとえば、(i) cucumber を bowl に加える、(ii) sliced tomatoes を加える、という場合、二つ目の手順の where 引数は文脈から推定され、cucumber が置かれた場所を指す。従来の SRL ベンチマークは暗黙引数を見落とすことが多く、そのため理解が不完全になる。この問題に対処するため、本論文では Implicit-VidSRL を導入する。これは、マルチモーダルな料理手順における文脈情報から、暗黙引数と明示引数を推論する必要があるデータセットである。提案データセットは、レシピ中の視覚的変化を通じたエンティティ追跡を要求することで、マルチモーダルモデルの文脈推論を評価する。著者らは近年のマルチモーダル LLM を調査し、動詞が与えられたマルチモーダルな手順データから what と where/with の暗黙引数を予測することに、これらのモデルが苦労することを示す。最後に iSRL-Qwen2-VL を提案し、GPT-4o と比べて、what-implicit の意味役割で F1 スコアを相対 17%、where/with-implicit の意味役割で 14.7% 改善する。データセットとコードは公開されている。

論文の面白いところ

この論文の中心は、手順理解を「次に何をするか」だけでなく、「いま何が何と一緒になっているか」として扱う点にある。料理動画では、材料は切られ、混ぜられ、焼かれ、名前も見た目も変わる。人間は「dressing」や「bread pieces」が過去のどの材料から来たかを自然に補うが、モデルは表面の語だけを拾いやすい。本論文は、その補完を SRL の what と where/with に入れることで、評価可能な形に落としている。

興味深いのは、マルチモーダル入力を与えれば自動的に解ける、という結果にはなっていないことである。GPT-4o は動画とテキストを併用しても、dressing を成分へ分解せず、そのまま what として出す例が示される。これは、視覚と言語の両方を見ることと、時間を越えて材料の同一性を保つことが別の能力であることを示す。ロボット調理、作業支援、手順書からの知識グラフ生成では、この差は小さくない。

問題設定

対象は、複数ステップから成る料理動画と、その各ステップに付いた自然文の指示である。各指示は一つ以上の動作に分解され、各動作は {verb, what, where/with} の意味フレームで表される。verb は主要な動詞、what は作用を受ける材料、where/with は投入先や一緒に扱われる材料を表す。ここで重要なのは、指示文に明示されていない材料も、過去の文脈や動画から分かるなら引数に入れる点である。

論文は二つの課題を定義する。第一は implicit argument prediction で、動詞は与えられ、what と where/with の空欄をモデルが埋める。第二は next step prediction で、途中までの手順から次の自然文と意味フレームを同時に予測する。評価では、引数をエンティティ集合として扱い、完全一致だけでなく語の重なりも使って F1 を計算する。次ステップ予測では、動詞 recall、SRL 引数の F1、BLEU4、METEOR も併用する。

提案手法

著者らはまず Implicit-VidSRL というデータセットを作る。元データは YouCook2 と Tasty の料理動画で、動画長、手順数、動画の有効性、暗黙情報の有無に基づいて 231 本を選ぶ。得られたデータには、2,545 個の意味フレーム、158 種の動詞、805 種のエンティティが含まれる。what には空集合がなく、where/with は 54% が空である。平均すると、what の暗黙エンティティ数は 6.29、where/with では 5.21 とされる。

アノテーションは三段階で行われる。まず、言語学の知識を持つ PhD 学生が、動画とテキストを見て暗黙エンティティを同定する。次に、少数の手作業例を in-context example として GPT-4o-Mini に与え、複数動作の指示を SRL 形式へ自動変換する。最後に、別のアノテータが自動生成されたラベルを修正し、材料だけを対象にして道具は原則として除く。モデルとしては、GPT-4o で作った silver-standard の SRL データを用い、Qwen2-7B-Instruct と Qwen2-VL-7B-Instruct を LoRA でファインチューニングした iSRL-Qwen2 / iSRL-Qwen2-VL を用いる。

結果

暗黙引数予測では、テキストのみの入力で LLama-3.1-70B が高い性能を示し、GPT-4o もそれに近い。動画のみでは全体に性能が下がり、視覚入力だけで材料を認識し、さらに過去から現在へ追跡する難しさが表れている。小規模モデルでは通常の Qwen2-VL が弱いが、iSRL-Qwen2-VL は動画のみの設定で F1what-implicit を 22.51 から 45.76、F1where/with-implicit を 17.07 から 36.06 に上げた。動画とテキストを併用した設定では、iSRL-Qwen2-VL が暗黙引数の指標で最良の結果を出す。

GPT-4o との比較では、iSRL-Qwen2-VL は what-implicit で 17%、where/with-implicit で 14.7% の相対改善を示す。次ステップ予測でも、iSRL を加えたモデルは対応するベースモデルより一貫して良い。たとえば video + text の設定では、Qwen2-VL 7B の METEOR が 16.18 であるのに対し、iSRL-Qwen2-VL は 19.38 である。アブレーションでは、SRL を出力に含めず単純にファインチューニングすると、暗黙引数の追跡能力がむしろ落ちることも示される。中間表現として意味フレームを予測させることが、長い手順の材料追跡に効いている。

具体例

たとえば、動画の手順が「オリーブオイルをピタパンに塗る」「それを角切りにする」「オリーブオイル、レモン、にんにく、塩をボウルで混ぜる」「きゅうり、レタス、トマト、玉ねぎをボウルに加える」「ドレッシングとパンをサラダに加える」と続くとする。最後の文だけを見ると、what は dressing と bread pieces で済むように見える。しかし、この論文の課題では、dressing はオリーブオイル、レモン、にんにく、塩の混合物であり、bread は前に油を塗って切ったピタパンであると復元する必要がある。さらに where/with には、野菜の入ったボウル、つまりきゅうり、レタス、トマト、玉ねぎが関わる。

モデルは各手順を、たとえば add という verb と、それに対応する what、where/with の集合に変換する。期待される出力は「add - オリーブオイル、レモン、にんにく、塩、オリーブオイル、ピタパン - きゅうり、レタス、トマト、玉ねぎ」のような意味フレームになる。誤りやすいのは、dressing という語をそのまま出し、成分まで戻さない場合である。別の誤りは、ボウルやフライパンのような道具を材料と同じ扱いで where/with に入れる場合である。この課題は、単なる物体検出や文生成ではなく、手順のなかで材料の状態と同一性を保つ推論を測っている。