Untitled
DocIE@XLLM25: UIEPrompter: A Unified Training-Free Framework for universal document-level information extraction via Structured Prompt
-
title: DocIE@XLLM25: UIEPrompter: A Unified Training-Free Framework for universal document-level information extraction via Structured Prompt
-
source_url: https://aclanthology.org/2025.xllm-1.28/
-
doi: 10.18653/v1/2025.xllm-1.28
-
generated_at: 2026-05-05T04:12:04+00:00
-
UIEPrompter は、文書レベルの情報抽出で NER と関係抽出をまとめて扱う、学習なしの LLM ベース手法です。
-
役割指定プロンプト、few-shot 例、JSON 形式を強く指定する制約プロンプトを組み合わせ、最後に複数モデルの出力を重複除去しながら統合します。
-
ACL 2025 の DocIE shared task で総合 1 位になり、平均 F1 は 27.06。低い数字に見えますが、2 位の 22.49 をきちんと上回っています。
論文の面白いところ
この論文の面白さは、手法がかなり素朴なのに、競技では強かったところです。モデルを追加学習せず、複雑な推論器も作らず、プロンプトと出力整形とアンサンブルで押し切っています。正直、論文としては「これで勝てるのか」と思うくらい実装寄りです。ただ、文書レベル情報抽出の現場感にはかなり近いです。細かいラベル体系に合わせる、JSON を壊さない、NER と関係抽出の結果を食い違わせない、という泥くさい問題がそのまま主役になっています。特に ablation で、基本テンプレートだけだとスコアが 0 になる点が印象的です。これは抽出能力がゼロというより、評価器が読める形式で出せていないという話です。LLM を情報抽出に使うとき、モデルの賢さより「評価コードが落ちない形で返す」ことが先に効く場面はよくあります。この論文はそのあたりを変に美化せず、競技システムとして割り切っているのが読みやすいです。
問題設定
対象は ACL 2025 shared task の universal document-level information extraction、略して DocIE です。入力には文書、ドメイン、抽出すべきエンティティ型、抽出すべき関係型が与えられます。システムは文書中の named entity を取り出し、その型を判定し、さらにエンティティ間の関係を三つ組として出力します。従来の作り方だと、まず NER モデルでエンティティを取って、その後に relation extraction モデルへ渡す流れになりがちです。この構成は分かりやすい一方で、NER のミスがそのまま関係抽出へ流れます。もうひとつの問題は、ドメインごとにアノテーション付きデータや fine-tuning を用意するコストです。DocIE のように文書単位で関係まで見るタスクでは、このコストがさらに重くなります。著者らは、LLM に NER と関係抽出を一度にやらせれば、少なくともパイプラインの食い違いは減らせると考えています。ここで狙っているのは、汎用 LLM をそのまま使い、ラベル体系への合わせ込みをプロンプト側で済ませる実用的な解です。
提案手法
UIEPrompter は、ひとつの LLM プロンプトで NER と triplet extraction を同時に実行します。最初に basic template を使い、モデルに「document NER and triplet extraction の専門家」として振る舞わせます。入力には document domain、document text、NER entity types、relationship types を渡します。次に few-shot guidance として、training set から選んだ入出力例を 1 件入れます。これはモデルにタスクの雰囲気を教えるというより、公式ラベルの好みや出力の癖に合わせるための小さな補正として働いています。さらに constrained output generation prompt を加え、出力は {"entities":"xxx","triples":"xxx"} の JSON 形式だけにするよう指定します。推論過程や余計な説明は不要、と明示しているのも大事です。最後に o3-mini、Gemini-2.0-flash、DeepSeek-v3 へ同じプロンプトを投げ、得られた結果をマージして重複を消します。凝った voting というより、モデルごとに拾えるものが違うので足し合わせる、という実用的なアンサンブルです。
結果
評価では、NER 側に entity identification F1 と entity classification F1、関係抽出側に general mode F1 と strict mode F1 が使われています。最終順位はこの 4 指標の平均 F1 で決まります。UIEPrompter は評価セットで F1-AVG 27.06 を取り、leaderboard 1 位でした。2 位は 22.49 なので、差は約 4.6 ポイントあります。内訳は F1-EI 65.52、F1-EC 32.20、F1-REG 5.40、F1-RES 5.11 です。関係抽出の絶対値はかなり低く、DocIE の難しさも見えます。それでも、4 つの指標すべてで 1 位を取っているため、NER だけで勝ったわけではありません。開発セットの ablation では、basic template だけだと各モデルとも 0 になっています。few-shot guidance を入れると一気にスコアが出始め、constrained output generation を足すとさらに安定します。単体モデルでは Gemini-2.0-flash が F1-AVG 23.50 で最も高く、Gemini と o3-mini の組み合わせは開発セットで 25.78 まで伸びました。評価セットでは 3 モデル融合が最終的に最良だったと報告されています。