V-ALPHASOCIAL: Benchmark and Self-Reflective Chain-of-Thought Generation for Visual Social Commonsense Reasoning
- V-SOCIAL は、映像、発話書き起こし、話者情報を合わせて、視覚的な社会常識推論を問うベンチマークである。
- V-ALPHASOCIAL は、未注釈データから推論過程を生成し、マルチモーダル識別器で選別しながら VideoLLaVA を自己訓練する方法である。
- 実験では、VideoLLaVA に対して V-SOCIAL で 14.4 ポイント、SocialIQ2 で 28.5 ポイントの改善を示したが、人間の成績にはなお大きく及ばない。
論文の面白いところ
この論文は、社会常識を「文章を読めるか」だけでなく、「場面を見て相手の表情や関係を読めるか」という形で扱う。人間の会話では、言葉だけでなく、沈黙、表情、身振り、相手との距離が意味を持つ。既存の社会常識ベンチマークはテキスト中心のものが多く、映像を用いるものでも文脈が短かったり、選択肢が容易であったりする場合があった。V-SOCIAL は、複数人が登場する比較的長い動画と発話書き起こしを組み合わせ、感情理解、社会関係、社会規範、対立解決、説得、ユーモアの六つの観点から設問を作る。ここでは、単に「誰が何を言ったか」ではなく、「その発言がどの関係のもとで、どのような含みを持つか」が問われる。論文のもう一つの要点は、正解だけでなく、正解へ至る推論過程を自己訓練で作ろうとする点にある。映像と言語の両方を扱うモデルは、細かな視覚手掛かりを見落としやすいので、BLIP によるフレーム説明や表情認識モデルの出力を補助情報として使う。大規模な人手注釈を前提にせず、既存データから推論過程を増やしていく設計は、実用上も理解しやすい。
問題設定
対象は、視覚的社会常識推論である。入力は、動画 v、発話書き起こしや話者情報を含むテキスト文脈 c、そして質問 q からなる。モデルは、まず推論過程 r を生成し、そのうえで選択肢から答え a を選ぶ。たとえば、ある人物が冗談を言っているのか、本気で怒っているのかは、文面だけでは判定しにくいことがある。そこで論文は、動画内の表情、行動、場面の流れを、発話内容と合わせて解釈する課題として定式化する。V-SOCIAL では 128 本の動画から 956 個の質問応答対を作成している。平均登場人物数は 2.46 人、平均対話ターン数は 10.43、平均動画長は約 90.73 秒である。質問は、易しいものと難しいものに分けられ、難しいものは書き起こしだけでは十分に解けないように設計される。著者らは、曖昧な質問、話者情報が不足した例、視覚情報を要しない選択肢を除き、最終データを作った。
提案手法
提案手法 V-ALPHASOCIAL は、VideoLLaVA を基礎モデルとする自己訓練の枠組みである。まず、既存の動画質問応答データに対して、モデルに推論過程と最終回答を生成させる。生成された回答が正解と一致したものを候補とし、さらにマルチモーダル識別器で推論過程の質を評価する。識別器は、動画、文脈、質問、推論、回答を入力として、良い推論かどうかを報酬として与える。正例と負例を用いて識別器を訓練し、選別された正例で方策モデルを再訓練する。この操作は反復でき、論文では複数回の反復により性能が上がることを示す。推論過程の生成には、通常の Chain-of-Thought(CoT)に加え、社会常識の六分類を明示する Social-of-Thought(SoT)プロンプトを用いる。さらに、BLIP による画像説明と表情認識モデルによる感情情報を文脈に加える。これにより、基礎モデルが見落としやすい顔の表情や場面の手掛かりを、言語化された補助情報として扱えるようにする。
結果
評価は、著者らの V-SOCIAL と既存の SocialIQ2 で行われた。V-SOCIAL では、GPT-4O が 82.1、GPT-4V が 78.5、GEMINI-1.5-Pro が 71.7 を記録した。人間の成績は 92.5 であり、閉じた商用モデルでも人間との差が残る。VideoLLaVA は V-SOCIAL で 37.8、SocialIQ2 で 39.7 であった。V-ALPHASOCIAL は単回で V-SOCIAL 50.6、SocialIQ2 68.2、反復版の V-ALPHASOCIAL* は V-SOCIAL 52.2、SocialIQ2 70.1 に達した。したがって、同じ 7B 規模の VideoLLaVA と比べると、V-SOCIAL で 14.4 ポイント、SocialIQ2 で 28.5 ポイント改善している。アブレーションでは、マルチモーダル識別器、Social-of-Thought、文脈拡張を外すと性能が下がり、それぞれが寄与していることが示された。入力様式の比較では、質問のみ、質問とテキスト、質問とテキストと映像の順に性能が上がった。誤り分析では、指示追従の失敗、視覚認識の誤り、社会文脈の誤解、推論の不整合、行動選択の誤りが確認され、提案手法はそれらを平均 4.25 ポイント程度減らした。
具体例
ある動画では、女性が婚約者の腕にワックスを試し、痛みや効果について笑いながら話している。入力には、動画そのもの、二人の発話書き起こし、話者情報として「ワックスを持つ女性」と「婚約者 Jay」が与えられ、質問は「話者 2 は話者 1 をどう思っているか」である。選択肢には「嫌っている」「愛している」「無関心である」「きょうだいである」のような答えが並ぶ。手法は、発話中の “babe” や “I love you” だけでなく、相手がしぶしぶ協力しながらも場を壊さずに応じている様子、女性が冗談めかして感謝している様子を合わせて見る。期待される出力は、「愛している」に相当する選択肢である。ここで間違えやすい点は、ワックスの痛みや「totally whack」という否定的な語だけに引かれて、二人の関係そのものまで否定的だと読むことである。視覚情報が乏しいモデルは、冗談、実験、親密な呼びかけを同じ文脈で扱えず、単語の極性だけで答えを選ぶことがある。V-ALPHASOCIAL は、発話、表情、行動、関係を段階的に推論する形で、この種の誤りを減らそうとする。