From Syntax to Semantics: Evaluating the Impact of Linguistic Structures on LLM-Based Information Extraction

生成日: 2026-05-24 02:20

# From Syntax to Semantics: Evaluating the Impact of Linguistic Structures on LLM-Based Information Extraction
- 大規模言語モデル（LLM）による共同関係抽出（Joint Relation Extraction; JRE）に、構文木、依存木、意味役割ラベル付けを追加して効果を調べた研究である。
- 依存木は重複したトリプレットを減らし、意味役割ラベル付けは入力文との主題上の近さを高める傾向を示した。
- 一方で、既存データセットの正解ラベルとの一致度は下がり、生成型の情報抽出をどう評価するかという問題も明らかになった。

## 論文の面白いところ

この論文の興味は、LLMを単に「抽出器」として使うのではなく、古典的な言語解析の出力をプロンプトに加えたときの変化を測っている点にある。対象は、文中のエンティティと関係を同時に取り出す共同関係抽出である。たとえば、人物、場所、組織を見つけ、その間に「所属する」「所在する」「実施する」といった関係を与える。知識ベースやGraphRAGの材料を作るには、この処理がしばしば必要になる。LLMは自由な表現で答えられるため便利だが、その自由さのために、同じ意味の関係をいくつも出したり、文にない一般知識へ寄ったりしやすい。本論文は、この揺れを文法的な構造で抑えられるかを調べている。結果は単純な性能向上ではないが、実務上の示唆は読み取りやすい。すなわち、構造情報は抽出結果を整理する助けになるが、既存の正解ラベルに忠実な出力だけを望む場合には副作用もある。

## 問題設定

共同関係抽出では、入力文 S とLLMベースの抽出器 M が与えられ、出力として `(e1, r, e2)` の形のトリプレット集合を得る。ここで e1 と e2 はエンティティ、r は両者の関係である。論文では、エンティティの情報はあらかじめ与えられない設定を扱う。つまり、モデルはエンティティの検出と関係の付与を一つの応答の中で行う必要がある。関係ラベルの候補をプロンプトに書く rel++ 設定と、候補を与えない open 設定の二つを用いる。従来の精度、再現率、F1は、LLMの自由記述出力では厳しすぎる。語の違いや関係名の言い換えによって、意味が近くても不一致と判定されるためである。このため本論文は、生成型関係抽出の評価指標として、トリプレット間の重複の少なさ、入力文との主題的類似度、正解トリプレットの被覆度を併用している。

## 提案手法

著者らは、ベースラインの指示プロンプトに、三種類の言語構造を追加する実験を行う。第一は constituency tree（CT）で、句構造に基づいて文のまとまりを示す。第二は dependency tree（DT）で、語と語の係り受け関係を示す。第三は semantic role labeling（SRL）で、述語とその項が文中で果たす役割を示す。これらはAllenNLP、Stanza、DeepSRLによって抽出され、LLMへの追加情報として渡される。LLMにはOpenChat-3.5、Meta-Llama-3.1-8B-Instruct、Mistral-Nemo-Instruct-2407、Gemma-2-9B-IT、GPT-4oが用いられる。データセットはNYT10、TACRED、CrossREであり、いずれも複数の関係を含む例を持つ。実験条件は instruction only、instruction+CT、instruction+DT、instruction+SRL の四つである。構造情報そのものを新しく学習するのではなく、外部解析器で得た構造をプロンプトに入れる、比較的軽い方法である。

## 結果

通常の精度、再現率、F1では、どのLLMも低い値にとどまった。論文はこれを、LLM出力と既存ラベルの表面一致に依存する評価の限界として扱っている。軟らかい評価指標では、構造情報の効果がよりはっきり見える。依存木を加えると、OpenChat、Gemma、MistralなどでUniqueness Scoreが上がり、同じ意味を持つトリプレットの重複が減る傾向があった。特にCrossREでは、依存木や構文木を加えた条件で有意な改善が報告されている。意味役割ラベル付けを加えると、Topical Similarityが多くのモデルとデータセットで上がった。これは、述語と項の対応が、関係抽出の形式と近いためと考えられる。ただしCompleteness Scoreは、構造情報を加えるほど下がる傾向を示した。著者らは、構造情報によりモデルがより一般的で意味的に自然な関係を出す一方、既存データセットの狭い正解ラベルからは離れる可能性を指摘している。

## 具体例

入力文として、「2017年から2018年にかけての英国ツアーはレスターのCurveで始まり、バーミンガム、ダブリン、カーディフ、エディンバラ、サウサンプトン、マンチェスターの劇場を巡回した」という文を考える。この文には、ツアーという出来事と、複数の劇場や都市との関係が含まれている。ベースラインのLLMは、「英国がレスターに所在する」「劇場がダブリンに所在する」のように、場所の一般的な関係だけを取り出してしまうことがある。これでは、文の中心が「英国ツアーの開催と巡回」であることを取り落とす。SRLを加えた場合、モデルは「ツアーがCurveで始まった」「ツアーがBirmingham Hippodromeへ巡回した」「ツアーがDublinへ巡回した」といった形で、述語と項に沿ったトリプレットを出しやすくなる。ここで重要なのは、都市名や劇場名をただ列挙することではない。どの出来事が、どの場所に対して、どのような動作を行ったかを保つことである。間違えやすい点は、地名同士の所在関係に引き寄せられ、ツアーそのものを主語にした関係を失うところにある。

From Syntax to Semantics: Evaluating the Impact of Linguistic Structures on LLM-Based Information Extraction

大規模言語モデル（LLM）による共同関係抽出（Joint Relation Extraction; JRE）に、構文木、依存木、意味役割ラベル付けを追加して効果を調べた研究である。
依存木は重複したトリプレットを減らし、意味役割ラベル付けは入力文との主題上の近さを高める傾向を示した。
一方で、既存データセットの正解ラベルとの一致度は下がり、生成型の情報抽出をどう評価するかという問題も明らかになった。

論文の面白いところ

この論文の興味は、LLMを単に「抽出器」として使うのではなく、古典的な言語解析の出力をプロンプトに加えたときの変化を測っている点にある。対象は、文中のエンティティと関係を同時に取り出す共同関係抽出である。たとえば、人物、場所、組織を見つけ、その間に「所属する」「所在する」「実施する」といった関係を与える。知識ベースやGraphRAGの材料を作るには、この処理がしばしば必要になる。LLMは自由な表現で答えられるため便利だが、その自由さのために、同じ意味の関係をいくつも出したり、文にない一般知識へ寄ったりしやすい。本論文は、この揺れを文法的な構造で抑えられるかを調べている。結果は単純な性能向上ではないが、実務上の示唆は読み取りやすい。すなわち、構造情報は抽出結果を整理する助けになるが、既存の正解ラベルに忠実な出力だけを望む場合には副作用もある。

問題設定

共同関係抽出では、入力文 S とLLMベースの抽出器 M が与えられ、出力として (e1, r, e2) の形のトリプレット集合を得る。ここで e1 と e2 はエンティティ、r は両者の関係である。論文では、エンティティの情報はあらかじめ与えられない設定を扱う。つまり、モデルはエンティティの検出と関係の付与を一つの応答の中で行う必要がある。関係ラベルの候補をプロンプトに書く rel++ 設定と、候補を与えない open 設定の二つを用いる。従来の精度、再現率、F1は、LLMの自由記述出力では厳しすぎる。語の違いや関係名の言い換えによって、意味が近くても不一致と判定されるためである。このため本論文は、生成型関係抽出の評価指標として、トリプレット間の重複の少なさ、入力文との主題的類似度、正解トリプレットの被覆度を併用している。

提案手法

著者らは、ベースラインの指示プロンプトに、三種類の言語構造を追加する実験を行う。第一は constituency tree（CT）で、句構造に基づいて文のまとまりを示す。第二は dependency tree（DT）で、語と語の係り受け関係を示す。第三は semantic role labeling（SRL）で、述語とその項が文中で果たす役割を示す。これらはAllenNLP、Stanza、DeepSRLによって抽出され、LLMへの追加情報として渡される。LLMにはOpenChat-3.5、Meta-Llama-3.1-8B-Instruct、Mistral-Nemo-Instruct-2407、Gemma-2-9B-IT、GPT-4oが用いられる。データセットはNYT10、TACRED、CrossREであり、いずれも複数の関係を含む例を持つ。実験条件は instruction only、instruction+CT、instruction+DT、instruction+SRL の四つである。構造情報そのものを新しく学習するのではなく、外部解析器で得た構造をプロンプトに入れる、比較的軽い方法である。

結果

通常の精度、再現率、F1では、どのLLMも低い値にとどまった。論文はこれを、LLM出力と既存ラベルの表面一致に依存する評価の限界として扱っている。軟らかい評価指標では、構造情報の効果がよりはっきり見える。依存木を加えると、OpenChat、Gemma、MistralなどでUniqueness Scoreが上がり、同じ意味を持つトリプレットの重複が減る傾向があった。特にCrossREでは、依存木や構文木を加えた条件で有意な改善が報告されている。意味役割ラベル付けを加えると、Topical Similarityが多くのモデルとデータセットで上がった。これは、述語と項の対応が、関係抽出の形式と近いためと考えられる。ただしCompleteness Scoreは、構造情報を加えるほど下がる傾向を示した。著者らは、構造情報によりモデルがより一般的で意味的に自然な関係を出す一方、既存データセットの狭い正解ラベルからは離れる可能性を指摘している。

具体例

入力文として、「2017年から2018年にかけての英国ツアーはレスターのCurveで始まり、バーミンガム、ダブリン、カーディフ、エディンバラ、サウサンプトン、マンチェスターの劇場を巡回した」という文を考える。この文には、ツアーという出来事と、複数の劇場や都市との関係が含まれている。ベースラインのLLMは、「英国がレスターに所在する」「劇場がダブリンに所在する」のように、場所の一般的な関係だけを取り出してしまうことがある。これでは、文の中心が「英国ツアーの開催と巡回」であることを取り落とす。SRLを加えた場合、モデルは「ツアーがCurveで始まった」「ツアーがBirmingham Hippodromeへ巡回した」「ツアーがDublinへ巡回した」といった形で、述語と項に沿ったトリプレットを出しやすくなる。ここで重要なのは、都市名や劇場名をただ列挙することではない。どの出来事が、どの場所に対して、どのような動作を行ったかを保つことである。間違えやすい点は、地名同士の所在関係に引き寄せられ、ツアーそのものを主語にした関係を失うところにある。