Untitled
Cross-Document Event-Keyed Summarization
-
title: Cross-Document Event-Keyed Summarization
-
source_url: https://aclanthology.org/2025.xllm-1.19/
-
doi: 10.18653/v1/2025.xllm-1.19
-
generated_at: 2026-05-05T13:24:04+00:00
-
単一の出来事について、Wikipedia 由来の短い報告文と、その根拠となる長い出典文書を合わせて要約する課題を定義した論文である。
-
FAMUS データセットを専門家が再注釈し、単一文書要約と複数文書要約を含む SEAMUS を作成している。
-
T5 などの微調整モデルと GPT-4o、Claude 系モデルを比較し、複数文書版は単一文書版より難しいこと、また不完全な抽出結果にも一定の耐性があることを示した。
論文の面白いところ
この論文は、情報抽出と要約の接点を扱っている。通常の要約は、文書全体を短くすることを目標にしやすい。ここでの目標は、文書中の特定の出来事だけを、与えられたイベント構造に沿って短く述べることである。さらに、短い報告文だけでなく、その報告文が参照する長い出典文書も使う。したがって、モデルは単にもっとも目立つ内容を拾うのではなく、指定された出来事に関係する人物、場所、時刻、理由などを見分ける必要がある。SEAMUS は、FAMUS の既存注釈を専門家が修正したうえで作られており、要約そのものにもイベント引数の注釈が付く。小規模なベンチマークではあるが、抽出から要約へつなぐ処理を測るには形がよい。実用面では、複数の資料にまたがる事件、政策決定、裁判、災害などを、利用者の指定した出来事に限って読む用途に近い。
問題設定
対象は event-keyed summarization(EKS)であり、これは文書とイベント表現を入力として、そのイベントの要約を出力する課題である。論文はこの課題を cross-document event-keyed summarization(CDEKS)へ広げる。CDEKS では、短い report と長い source document の組を入力にし、両方が述べる同じ出来事について一つの要約を書く。イベント表現には FrameNet に基づくフレーム、トリガー、役割、役割を満たす引数が含まれる。たとえば「恩赦」なら、権限を持つ主体、対象者、犯罪、時刻、場所などが問題になる。従来の複数文書要約は、記事群全体の概要や時系列を作ることが多かった。本論文の課題は、あらかじめ指定された一つの出来事だけを扱う点で異なる。要約は読みやすくなければならないが、同時に、入力中のイベント引数を正しく反映する必要がある。
提案手法
主な貢献は、SEAMUS(Summaries of Events Across Multiple Sources)というデータセットの構築である。基盤には FAMUS の 1,265 件の report-source ペアを用いる。第一段階では、report だけを読んで、その中の対象イベントを一文程度に要約し、要約中のイベント引数を注釈する。第二段階では、report と source document の両方を読んで、より情報量のある複数文書要約を作り、同じように引数を注釈する。各段階で、既存の FAMUS 注釈に誤りや欠落があれば先に修正する。評価用のベースラインには、BART、PEGASUS、T5 の微調整モデルと、GPT-4o、GPT-4o Mini、Claude 3 Haiku、Claude 3.5 Sonnet のゼロショットおよび少数例プロンプトを置く。長い source document は小型モデルにそのまま入らないため、BM25 で report に近い文を七文取り出して使う。評価では ROUGE、BERTScore に加え、イベント引数の回収を測る CEAF-REE、忠実性を見る AlignScore と FactScore を併用している。
結果
単一文書の report summarization では、T5 の微調整モデルが多くの自動評価指標で最も高い値を示した。T5 は report 側で ROUGE-1 76.6、ROUGE-2 64.4、ROUGE-L 68.9、CEAF-REE 74.2 を得ている。複数文書の CDEKS でも微調整モデルは強く、T5 は ROUGE-1 64.1、ROUGE-2 46.4、ROUGE-L 52.8 を示した。一方、忠実性の指標では Claude 3.5 Sonnet が高く、cross-document 条件の AlignScore では few-shot で 95.1 を得ている。GPT-4o は few-shot の cross-document 条件で ROUGE-1 61.2、ROUGE-L 49.4 と、LLM 系では高い成績を示した。全体として、cross-document 条件は report 条件より各指標が下がり、出典文書を加えても処理は単純にはならない。入力からイベント注釈や本文を削る ablation では性能が落ち、本文だけ、構造だけ、スキーマだけでは十分でないことが示された。イベント引数に人工的なノイズを入れる実験では、誤りの割合を 0.5 まで上げても一部の LLM は品質低下が比較的小さかった。これは、誤った抽出結果をそのまま信じるのではなく、イベント構造を手がかりとして本文中の関連箇所を探し直せる場合があるためと考えられる。
具体例
たとえば、report に「2015 年のサウジアラビア訪問中、ドイツ副首相の Sigmar Gabriel は、収監中の作家 Raif Badawi の釈放と恩赦をサウジ当局に求めた」とあるとする。source document には、この件がより長く説明され、Badawi が「電子的手段でイスラムを侮辱した」として刑を受けたこと、King Salman との会談前に Gabriel が量刑の厳しさに言及したことなどが書かれている。入力のイベント表現は、Clemency というフレーム、grant などのトリガー、権限者、対象者、犯罪、時刻、場所といった役割を含む。手法またはモデルは、report から出来事の骨格を取り、source から report だけでは不足する犯罪内容や関係者を補う。期待される出力は「2015 年の訪問中、Sigmar Gabriel は King Salman を含むサウジ当局に対し、電子的手段でイスラムを侮辱したとして収監された Raif Badawi に恩赦を与えるよう求めた」のような一文である。間違えやすい点は、国際的な批判やむち打ち刑そのものを主題にしてしまい、恩赦を求めた出来事から外れることである。別の危険は、source に多くの情報があるため、Badawi の逮捕年やオンラインフォーラムの説明を過度に入れ、指定されたイベントの引数を曖昧にすることである。CDEKS では、長い文書を広く要約する力より、与えられたイベント構造に従って必要な情報だけをまとめる力が問われる。