PVP: An Image Dataset for Personalized Visual Persuasion with Persuasion Strategies, Viewer Characteristics, and Persuasiveness Ratings

生成日:

PVP: An Image Dataset for Personalized Visual Persuasion with Persuasion Strategies, Viewer Characteristics, and Persuasiveness Ratings

Abstract(日本語訳)

視覚的説得は、視覚要素を用いて認知や行動に影響を与えるものであり、広告や政治コミュニケーションなどの分野で重要である。近年の人工知能の進展により、個人に合わせた説得的画像を自動生成する説得システムを開発できる可能性が高まっている。しかし、この領域の大きな制約は、画像の説得力と、その画像を評価した人々の個人情報とを結びつける包括的なデータセットが不足していることである。この不足を補い、パーソナライズされた視覚的説得の技術的進展を促すために、本論文では Personalized Visual Persuasion(PVP)データセットを公開する。PVP は、596 種のメッセージと 9 種の説得方略にまたがる 28,454 枚の説得的画像から成る。重要な点として、PVP は 2,521 人の人間のアノテータが評価した画像の説得力スコアに加え、人口統計的特徴および心理的特徴(性格特性と価値観)を提供する。本論文では、説得的画像生成器と自動評価器を開発し、ベンチマークのベースラインを定めることで、このデータセットの有用性を示す。実験の結果、心理的特徴を取り入れることで説得的画像の生成と評価が向上し、パーソナライズされた視覚的説得に有用な知見が得られることが示された。

論文の面白いところ

この論文の主眼は、画像の説得力を「画像の良し悪し」だけでなく、「誰が見るか」とともに測ろうとした点にある。従来の視覚的説得のデータセットには、ミーム、広告、政治画像などを対象にしたものがあるが、評価者の性格や価値観まで体系的に含むものは限られていた。PVP は、画像、行動を促すメッセージ、説得方略、評価者の心理特性、説得力スコアを同じ単位で結びつけている。これにより、「ある画像が平均的に説得的か」だけでなく、「どのような価値観の人に効きやすいか」を調べられる。論文中の分析では、正のフレーミングは比較的一様に評価される一方、負の結果を示す方略は価値観や性格との相関が出やすい。これは、パーソナライズされた生成 AI の応用を考える上で有用であると同時に、慎重な扱いを要する結果でもある。説得を強める技術は、公共広告や健康行動の支援に使える一方、過度な誘導や操作にも転じうるからである。

問題設定

論文が扱う問題は、ある行動を促すための画像が、特定の視聴者にどれほど説得的に見えるかを予測し、さらにその視聴者に合わせた画像説明を生成することである。たとえば「歩行者が多い場所では速度を落とす」というメッセージに対して、安全や他者配慮を強く重んじる人と、自由や刺激を重んじる人では、同じ画像への反応が異なる可能性がある。既存の画像データセットは、説得方略や画像内容を扱っていても、評価者側の心理的特徴を十分には持たないことが多い。すると、モデルは画像全体の平均的な評価は学べても、個人差を説明しにくい。PVP はこの不足を補うため、評価者の Big Five、Schwartz の価値観、道徳基盤、習慣の有無を収集している。説得力スコアは 0 から 10 の自己申告評価であり、実際の行動変化を直接測ったものではない。この点は限界であるが、596 種の行動について実行後の行動変化を追跡することは倫理面と実務面で難しいため、論文では既存研究と同様に知覚された説得力を代理指標として用いている。

提案手法

PVP の構築では、まず米国政府の省庁や関連機関を手がかりに、健康、交通、安全、プライバシー、教育など 20 の日常的なトピックを定めている。各トピックについて、行動変化を求める具体的なメッセージを GPT-4o で作成し、合計 596 種のメッセージを得た。次に、知覚される人物像、内的感情、外的感情、結果、バンドワゴンという説得方略を設定し、前四者には正負のフレーミングを与えて合計 9 種の方略とした。各メッセージと方略に対して前提となる短い理由を作り、それを DALL-E 用の生成プロンプトと Google 画像検索用の検索クエリに変換して画像を集めた。画像は、人手と GPT-4o による検証で、意図した前提を十分に表していないものや文字に依存しすぎるものを除外している。最終的に、各画像は 4 人の評価者により説得力を評価され、評価者はその後に心理尺度の質問票へ回答した。さらに論文は、このデータセットを使って、画像の説得力を予測する evaluator と、説得的な画像説明を作る generator の二つのタスクを設定している。

結果

データ分析では、説得力スコアの平均は 4.65 付近で、0 と 10 にも山が見られた。トピック別には、交通、自然保護、国土安全保障のように、実行しやすく必要性が分かりやすい行動が高く評価されやすかった。メッセージ単位では「歩行者が多い場所では速度を落とす」が 8.19 と高く、「スクワットをする」が 1.70 と低かった。説得方略では、負の内的感情を扱う方略が平均 5.83 と最も高く、負の人物像を扱う方略が 3.73 と最も低かった。ただし全体としては、正の方略の方が負の方略より高く評価される傾向も示されている。評価器の実験では、心理特性を入れない場合より、PVQ-21、Big Five、MFQ-30 のいずれかを入れた場合の方が予測精度がよく、特に PVQ-21 が最も有効だった。モデル比較では、LLaMA3-8B-Instruct を PVP でファインチューニングした評価器が Spearman 0.25、Pearson 0.25、NDCG 0.42、RMSE 3.40 を示し、ゼロショットの GPT-4o や GPT-4o-mini より良かった。極端に高い画像と低い画像だけを対象にすると、同じ評価器の相関はさらに高まり、低品質画像と高品質画像の識別にこのデータが使えることが示された。生成器の実験でも、説得力スコア 8 超の画像でファインチューニングした LLaMA3-8B-Instruct が平均 4.77 と最も高く、GPT-4o-mini と GPT-4o を上回った。

具体例

たとえば入力が「毎朝ヨガをする」という行動メッセージで、対象者が調和や安全を重んじ、現在はその習慣を持たない人だとする。PVP の枠組みでは、まずこのメッセージに対して「落ち着いた人物に見られる」「一日を穏やかに始められる」といった前提が、説得方略に沿って作られる。画像生成側は、静かな朝の部屋でヨガマットに座る人物、差し込む朝日、整った生活空間といった画像説明を出す。評価器は、その画像説明または画像自体に加え、対象者の価値観の数値を読み、0 から 10 の説得力スコアを予測する。期待される出力は、単に「美しい画像」ではなく、その人がヨガを始めたいと感じる度合いに対応したスコアである。間違えやすい点は、画像がヨガの雰囲気を示していても、メッセージの行動変化と結びつかない場合である。たとえば高級なスタジオや専門的なポーズを強調しすぎると、初心者には実行しにくい行動に見え、説得力が下がる可能性がある。論文のエラー分析でも、生成された画像説明がメッセージとずれること、また対象者の価値観を十分に反映できないことが主要な失敗として挙げられている。