\"DocIE@XLLM25: ZeroSemble - Robust and Efficient Zero-Shot Document Information Extraction with Heterogeneous Large Language Model Ensembles\

生成日: 2026-05-24 02:20

# "DocIE@XLLM25: ZeroSemble - Robust and Efficient Zero-Shot Document Information Extraction with Heterogeneous Large Language Model Ensembles"
- ZeroSemble は、文書から固有表現と関係三つ組を取り出す Document-level Information Extraction（DocIE）向けのゼロショット手法である。
- 三つの大規模言語モデルに固有表現を並列に抽出させ、統合した固有表現だけを手掛かりに Qwen-2.5-32B で関係抽出を行う。
- 公式 Shared Task-IV では総合スコア 22.49 で 2 位となり、固有表現同定では最良の単体モデルを上回ったが、関係抽出そのものはなお難しい。

## 論文の面白いところ

この論文のよさは、複雑な訓練手法よりも、かなり実務的な組み合わせ方にある。文書レベルの情報抽出では、どの語が同じ実体を指すのか、離れた文の間に関係があるのか、そもそも出力形式が壊れないか、という地味な問題が重なる。ZeroSemble は、これを一つの巨大なモデルに任せ切るのではなく、固有表現抽出と関係抽出を分けて扱う。第一段階では DeepSeek-R1-Distill-Llama-70B、Llama-3.3-70B、Qwen-2.5-32B の出力を集め、重複を整理し、型を投票で決める。第二段階では、統合済みの固有表現リストを制約として与え、関係の head と tail がその中に収まるようにする。これは派手ではないが、関係抽出でよく起こる「本文にない実体どうしの関係を作る」失敗を抑えるには筋がよい。論文中の結果も、その性格をよく示している。固有表現同定は単体モデルより改善する一方で、関係抽出の F1 は 5% 未満にとどまる。成功と限界が同じ表に出ているので、読者はこの方法を道具として評価しやすい。

## 問題設定

対象は The 1st Joint Workshop on Large Language Models and Structure Modeling の Shared Task-IV、Document-level Information Extraction（DocIE）である。入力は比較的長い文書であり、出力は文書中の固有表現、その型、さらに実体間の意味関係である。固有表現認識（Named Entity Recognition; NER）では、PERSON、LOCATION、ORGANIZATION のような型を付けながら、文書全体に現れる言及を拾う。関係抽出（Relation Extraction; RE）では、works_at や located_in のような関係を、head entity、relation、tail entity の三つ組として出す。評価には、言及の厳密一致を見る Entity Identification（EI）、型まで見る Entity Classification（EC）、関係三つ組を見る一般モードと厳密モードが使われる。データセットは 34 ドメインを含み、訓練側で見えるドメインは限られている。したがって、単一ドメインで細かく訓練したモデルよりも、未知ドメインにそのまま移せる方法が求められる。論文は、とくにゼロショット設定での関係抽出の低精度を問題としている。固有表現の抽出はある程度できても、関係は過剰に生成されやすく、存在しない実体を含む三つ組も生じるからである。

## 提案手法

ZeroSemble は二段階のパイプラインで構成される。第一段階では、DeepSeek-R1-Distill-Llama-70B、Llama-3.3-70B-Versatile、Qwen-2.5-32B に同じ文書を与え、それぞれ固有表現を JSON 形式で抽出させる。プロンプトには、対象ドメイン、抽出すべきラベル、余計な文章を出さず JSON だけを返す指示が入る。得られた候補は combine.py による統合処理に渡され、同じ言及集合を持つ実体を frozenset で重複排除する。型の解決には重み付き多数決を使い、論文では観察上の分類性能に基づいて DeepSeek、Llama、Qwen の順に重みを置く。第二段階では、統合された固有表現集合を Qwen-2.5-32B に与え、head と tail がその集合内の実体になる関係だけを出すよう促す。この制約付き関係抽出が、ZeroSemble の中心的な工夫である。実装面では、API キーの循環、指数バックオフ、途中保存、JSON 検証、ローカル Hugging Face モデルへのフォールバックも用意されている。論文によれば、標準的なクラウド環境で三モデルのアンサンブルを用い、1 時間あたり約 200 文書を処理できる。

## 結果

単体モデルの固有表現同定では、Llama-3.3-70B が最良で F1 45.09% であった。ZeroSemble のアンサンブルは、Entity Identification の F1 を 55.65% まで上げ、最良単体モデルから 10.56 ポイント改善した。これは主に再現率の増加によるもので、単体最良の 33.75% に対し、アンサンブルでは 54.66% となった。一方で適合率は 67.92% から 56.67% に下がっており、より多く拾う代わりに誤りも増える。Entity Classification の F1 は 24.60% から 26.11% への小幅な改善で、型付けの難しさは残っている。関係抽出では、最良単体モデルの一般モード F1 が 4.75%、ZeroSemble が 4.19% で、総合 F1 だけを見ると改善していない。ただし実験ログでは、制約付き抽出により文書あたりの関係候補が 27.3 から 13.1 に減り、適合率が 152% 改善したと報告されている。公式順位では、UIT-SHAMROCK チームの ZeroSemble は総合スコア 22.49 で 2 位だった。結論として、この手法は固有表現の被覆を増やす用途には有効だが、ゼロショットの文書レベル関係抽出はなお未解決に近い難題として残る。

## 具体例

- DocIE は、長い文書から「実体」と「実体どうしの関係」を取り出す課題である。
- Entity Identification（EI）は、「Barack Obama」という言及を本文中で正しく見つけたかを見る。
- Entity Classification（EC）は、その言及を PERSON などの正しい型に分類できたかを見る。
- Relation Extraction（RE）は、`head: Barack Obama, relation: born_in, tail: Honolulu` のような三つ組を作る。
- General Mode では、同じ実体を指す別の言及に置き換わっても正解扱いになる場合がある。
- Strict Mode では、head、relation、tail の言及まで厳密に合っている必要がある。
- ZeroSemble の第一段階は、三つのモデルに「本文から固有表現だけを JSON で出して」と頼む処理である。
- `mentions` は同じ実体を指す表現の集合であり、たとえば正式名称と略称をまとめるために使う。
- `frozenset` による重複排除は、同じ言及集合を持つ候補を一つにまとめる実装上の工夫である。
- 重み付き多数決は、複数モデルが違う型を出したとき、より信頼するモデルの判断を少し強く扱う方法である。
- 第二段階では、Qwen-2.5-32B に統合済みの実体リストを渡し、その中の実体だけで関係を作らせる。
- この制約により、本文にも統合リストにもない実体を勝手に使った関係三つ組を減らす。
- ただし、正しい関係を広く拾うことと、誤った関係を出さないことは両立しにくく、論文の数値にもその難しさが表れている。

"DocIE@XLLM25: ZeroSemble - Robust and Efficient Zero-Shot Document Information Extraction with Heterogeneous Large Language Model Ensembles"

ZeroSemble は、文書から固有表現と関係三つ組を取り出す Document-level Information Extraction（DocIE）向けのゼロショット手法である。
三つの大規模言語モデルに固有表現を並列に抽出させ、統合した固有表現だけを手掛かりに Qwen-2.5-32B で関係抽出を行う。
公式 Shared Task-IV では総合スコア 22.49 で 2 位となり、固有表現同定では最良の単体モデルを上回ったが、関係抽出そのものはなお難しい。

論文の面白いところ

この論文のよさは、複雑な訓練手法よりも、かなり実務的な組み合わせ方にある。文書レベルの情報抽出では、どの語が同じ実体を指すのか、離れた文の間に関係があるのか、そもそも出力形式が壊れないか、という地味な問題が重なる。ZeroSemble は、これを一つの巨大なモデルに任せ切るのではなく、固有表現抽出と関係抽出を分けて扱う。第一段階では DeepSeek-R1-Distill-Llama-70B、Llama-3.3-70B、Qwen-2.5-32B の出力を集め、重複を整理し、型を投票で決める。第二段階では、統合済みの固有表現リストを制約として与え、関係の head と tail がその中に収まるようにする。これは派手ではないが、関係抽出でよく起こる「本文にない実体どうしの関係を作る」失敗を抑えるには筋がよい。論文中の結果も、その性格をよく示している。固有表現同定は単体モデルより改善する一方で、関係抽出の F1 は 5% 未満にとどまる。成功と限界が同じ表に出ているので、読者はこの方法を道具として評価しやすい。

問題設定

対象は The 1st Joint Workshop on Large Language Models and Structure Modeling の Shared Task-IV、Document-level Information Extraction（DocIE）である。入力は比較的長い文書であり、出力は文書中の固有表現、その型、さらに実体間の意味関係である。固有表現認識（Named Entity Recognition; NER）では、PERSON、LOCATION、ORGANIZATION のような型を付けながら、文書全体に現れる言及を拾う。関係抽出（Relation Extraction; RE）では、works_at や located_in のような関係を、head entity、relation、tail entity の三つ組として出す。評価には、言及の厳密一致を見る Entity Identification（EI）、型まで見る Entity Classification（EC）、関係三つ組を見る一般モードと厳密モードが使われる。データセットは 34 ドメインを含み、訓練側で見えるドメインは限られている。したがって、単一ドメインで細かく訓練したモデルよりも、未知ドメインにそのまま移せる方法が求められる。論文は、とくにゼロショット設定での関係抽出の低精度を問題としている。固有表現の抽出はある程度できても、関係は過剰に生成されやすく、存在しない実体を含む三つ組も生じるからである。

提案手法

ZeroSemble は二段階のパイプラインで構成される。第一段階では、DeepSeek-R1-Distill-Llama-70B、Llama-3.3-70B-Versatile、Qwen-2.5-32B に同じ文書を与え、それぞれ固有表現を JSON 形式で抽出させる。プロンプトには、対象ドメイン、抽出すべきラベル、余計な文章を出さず JSON だけを返す指示が入る。得られた候補は combine.py による統合処理に渡され、同じ言及集合を持つ実体を frozenset で重複排除する。型の解決には重み付き多数決を使い、論文では観察上の分類性能に基づいて DeepSeek、Llama、Qwen の順に重みを置く。第二段階では、統合された固有表現集合を Qwen-2.5-32B に与え、head と tail がその集合内の実体になる関係だけを出すよう促す。この制約付き関係抽出が、ZeroSemble の中心的な工夫である。実装面では、API キーの循環、指数バックオフ、途中保存、JSON 検証、ローカル Hugging Face モデルへのフォールバックも用意されている。論文によれば、標準的なクラウド環境で三モデルのアンサンブルを用い、1 時間あたり約 200 文書を処理できる。

結果

単体モデルの固有表現同定では、Llama-3.3-70B が最良で F1 45.09% であった。ZeroSemble のアンサンブルは、Entity Identification の F1 を 55.65% まで上げ、最良単体モデルから 10.56 ポイント改善した。これは主に再現率の増加によるもので、単体最良の 33.75% に対し、アンサンブルでは 54.66% となった。一方で適合率は 67.92% から 56.67% に下がっており、より多く拾う代わりに誤りも増える。Entity Classification の F1 は 24.60% から 26.11% への小幅な改善で、型付けの難しさは残っている。関係抽出では、最良単体モデルの一般モード F1 が 4.75%、ZeroSemble が 4.19% で、総合 F1 だけを見ると改善していない。ただし実験ログでは、制約付き抽出により文書あたりの関係候補が 27.3 から 13.1 に減り、適合率が 152% 改善したと報告されている。公式順位では、UIT-SHAMROCK チームの ZeroSemble は総合スコア 22.49 で 2 位だった。結論として、この手法は固有表現の被覆を増やす用途には有効だが、ゼロショットの文書レベル関係抽出はなお未解決に近い難題として残る。

具体例

DocIE は、長い文書から「実体」と「実体どうしの関係」を取り出す課題である。
Entity Identification（EI）は、「Barack Obama」という言及を本文中で正しく見つけたかを見る。
Entity Classification（EC）は、その言及を PERSON などの正しい型に分類できたかを見る。
Relation Extraction（RE）は、head: Barack Obama, relation: born_in, tail: Honolulu のような三つ組を作る。
General Mode では、同じ実体を指す別の言及に置き換わっても正解扱いになる場合がある。
Strict Mode では、head、relation、tail の言及まで厳密に合っている必要がある。
ZeroSemble の第一段階は、三つのモデルに「本文から固有表現だけを JSON で出して」と頼む処理である。
mentions は同じ実体を指す表現の集合であり、たとえば正式名称と略称をまとめるために使う。
frozenset による重複排除は、同じ言及集合を持つ候補を一つにまとめる実装上の工夫である。
重み付き多数決は、複数モデルが違う型を出したとき、より信頼するモデルの判断を少し強く扱う方法である。
第二段階では、Qwen-2.5-32B に統合済みの実体リストを渡し、その中の実体だけで関係を作らせる。
この制約により、本文にも統合リストにもない実体を勝手に使った関係三つ組を減らす。
ただし、正しい関係を広く拾うことと、誤った関係を出さないことは両立しにくく、論文の数値にもその難しさが表れている。