Can LLMs Interpret and Leverage Structured Linguistic Representations? A Case Study with AMRs

生成日: 2026-05-24 02:20

# Can LLMs Interpret and Leverage Structured Linguistic Representations? A Case Study with AMRs
- 大規模言語モデルが、Abstract Meaning Representation（AMR）のような構造化された意味表現を、通常のプロンプトの一部として扱えるかを調べた研究である。
- Llama 3.1 8B、Phi-3、Mistral 7Bを用い、AMRからの文再生成、質問応答、対話要約、自然言語推論を、文脈のみ、AMR併用、AMRのみの条件で比較している。
- 短い文脈ではAMRの追加がかえって性能を下げる場合が多いが、長い対話の要約ではLlama 3.1のゼロショット性能が明確に改善した。

## 論文の面白いところ

この論文は、AMRを専用モデルの内部構造に組み込むのではなく、線形化した文字列としてそのままプロンプトに入れる。つまり、既存の大規模言語モデルが、グラフ由来の記号列をどの程度読めるのかを測っている。結果は単純ではない。短い質問応答では、原文にAMRを添えるとLlama 3.1のF1が3ショットで59%から52%へ下がった。一方で、SAMSumの対話要約では、Llama 3.1のゼロショットのコサイン類似度が66%から76%へ上がった。AMRだけを与えても、条件によっては一定の性能が出る点も興味深い。モデルはAMRを完全に無視しているわけではないが、いつ役立つかは文脈の長さやタスクの性質に依存する。構造化表現は万能の補助輪ではなく、長い文脈の要点整理では効きやすく、短い文では余分な記号列になりやすい、という落ち着いた結論である。

## 問題設定

Abstract Meaning Representation（AMR）は、文の表層的な語順ではなく、出来事、参加者、属性、関係を有向グラフとして表す意味表現である。従来は、AMRを扱うためにグラフ注意機構や専用のエンコーダを用いる研究が多かった。この論文の問いは、そうした構造を持たない汎用の大規模言語モデルでも、線形化されたAMRを直接利用できるのか、というものである。対象タスクは、AMRから原文を復元するAMR-to-text、SQuAD 2.0による単一ホップ質問応答、HotpotQAによる2ホップ質問応答、SAMSumによる対話要約、SNLIおよびDocNLIによる自然言語推論である。プロンプト条件は、原文だけを使うもの、原文にAMRを添えるもの、AMRだけを使うものに分けられる。ゼロショット、3ショット、5ショットの設定も比較される。評価は、生成課題ではROUGE、BLEU、文埋め込みのコサイン類似度を用い、質問応答ではF1、自然言語推論ではマクロF1を用いる。

## 提案手法

本研究は新しいモデル構造を提案するというより、AMRをプロンプト材料として使う評価手順を提案している。まず、LDC2020T02に含まれるAMRを用い、線形化AMRから元の文を再生成できるかを調べる。次に、SQuAD 2.0、HotpotQA、SAMSum、SNLI、DocNLIの文脈を、IBMの遷移型AMRパーサで文書単位または文単位のAMRへ変換する。変換後のAMRは、通常のテキストと同じようにプロンプトへ挿入される。AMR併用条件では、モデルは原文と線形化AMRの両方を読む。AMRのみ条件では、原文を取り除き、AMRを文脈として推論するよう指示する。実験には8ビット量子化された instruction-tuned のLlama 3.1 8B、Phi-3 mini、Mistral 7Bが使われる。ただし、長い文脈を扱う2ホップ質問応答とDocNLIでは、主にLlama 3.1を用いている。

## 結果

AMRから原文を復元する課題では、Llama 3.1が5ショットでコサイン類似度81%を得た。これは、少なくとも一部の大規模言語モデルが、線形化されたAMRから自然文の内容をかなり復元できることを示す。SAMSumの対話要約では、Llama 3.1のゼロショット設定で、文脈のみのコサイン類似度66%に対し、AMR併用は76%であった。3ショットと5ショットでも、AMR併用の平均値は文脈のみをわずかに上回った。LoRAによる軽量ファインチューニングも試され、AMR併用で75%から76%へ小さく改善したが、少数例プロンプトを明確に上回るものではなかった。SQuAD 2.0では反対に、Llama 3.1の3ショットF1が文脈のみで59%、AMR併用で52%となり、短い文脈ではAMRが負担になる傾向が見られた。HotpotQAやDocNLIでは結果が安定せず、長文脈であってもAMRが常に有利になるとはいえない。SNLIではPhi-3のゼロショットでAMR併用が文脈のみを上回ったが、少数例を加えると文脈のみが最良となった。

## 具体例

たとえば、家族の予定を話し合う短い対話を要約する場面を考える。入力は、「明日は母の通院がある」「兄が車を出せない」「姉が午前中なら送れる」「父には薬局に寄ってほしい」といった発話が数ターン続く会話である。文脈のみのプロンプトでは、モデルは発話の順序と表現をそのまま読み、誰が何をするのかを要約する。AMR併用では、この会話に加えて、「送る」「できない」「寄る」といった出来事と、その主体や対象を表す構造化された記号列も渡される。期待される出力は、「姉が午前中に母を病院へ送り、父が薬局に寄る予定で、兄は車を出せない」という要約である。間違えやすい点は、兄が送る人物であると取り違えること、薬局に寄る人を母と誤ること、また「午前中なら」という条件を落とすことである。AMRがうまく働く場合、発話の離れた場所に現れる主体、行為、条件の対応が保たれ、長い会話でも要点を失いにくくなる。逆に、もとの文が短く単純な場合には、AMRの記号列が余計な入力となり、モデルの注意を散らすことがある。

Can LLMs Interpret and Leverage Structured Linguistic Representations? A Case Study with AMRs

大規模言語モデルが、Abstract Meaning Representation（AMR）のような構造化された意味表現を、通常のプロンプトの一部として扱えるかを調べた研究である。
Llama 3.1 8B、Phi-3、Mistral 7Bを用い、AMRからの文再生成、質問応答、対話要約、自然言語推論を、文脈のみ、AMR併用、AMRのみの条件で比較している。
短い文脈ではAMRの追加がかえって性能を下げる場合が多いが、長い対話の要約ではLlama 3.1のゼロショット性能が明確に改善した。

論文の面白いところ

この論文は、AMRを専用モデルの内部構造に組み込むのではなく、線形化した文字列としてそのままプロンプトに入れる。つまり、既存の大規模言語モデルが、グラフ由来の記号列をどの程度読めるのかを測っている。結果は単純ではない。短い質問応答では、原文にAMRを添えるとLlama 3.1のF1が3ショットで59%から52%へ下がった。一方で、SAMSumの対話要約では、Llama 3.1のゼロショットのコサイン類似度が66%から76%へ上がった。AMRだけを与えても、条件によっては一定の性能が出る点も興味深い。モデルはAMRを完全に無視しているわけではないが、いつ役立つかは文脈の長さやタスクの性質に依存する。構造化表現は万能の補助輪ではなく、長い文脈の要点整理では効きやすく、短い文では余分な記号列になりやすい、という落ち着いた結論である。

問題設定

Abstract Meaning Representation（AMR）は、文の表層的な語順ではなく、出来事、参加者、属性、関係を有向グラフとして表す意味表現である。従来は、AMRを扱うためにグラフ注意機構や専用のエンコーダを用いる研究が多かった。この論文の問いは、そうした構造を持たない汎用の大規模言語モデルでも、線形化されたAMRを直接利用できるのか、というものである。対象タスクは、AMRから原文を復元するAMR-to-text、SQuAD 2.0による単一ホップ質問応答、HotpotQAによる2ホップ質問応答、SAMSumによる対話要約、SNLIおよびDocNLIによる自然言語推論である。プロンプト条件は、原文だけを使うもの、原文にAMRを添えるもの、AMRだけを使うものに分けられる。ゼロショット、3ショット、5ショットの設定も比較される。評価は、生成課題ではROUGE、BLEU、文埋め込みのコサイン類似度を用い、質問応答ではF1、自然言語推論ではマクロF1を用いる。

提案手法

本研究は新しいモデル構造を提案するというより、AMRをプロンプト材料として使う評価手順を提案している。まず、LDC2020T02に含まれるAMRを用い、線形化AMRから元の文を再生成できるかを調べる。次に、SQuAD 2.0、HotpotQA、SAMSum、SNLI、DocNLIの文脈を、IBMの遷移型AMRパーサで文書単位または文単位のAMRへ変換する。変換後のAMRは、通常のテキストと同じようにプロンプトへ挿入される。AMR併用条件では、モデルは原文と線形化AMRの両方を読む。AMRのみ条件では、原文を取り除き、AMRを文脈として推論するよう指示する。実験には8ビット量子化された instruction-tuned のLlama 3.1 8B、Phi-3 mini、Mistral 7Bが使われる。ただし、長い文脈を扱う2ホップ質問応答とDocNLIでは、主にLlama 3.1を用いている。

結果

AMRから原文を復元する課題では、Llama 3.1が5ショットでコサイン類似度81%を得た。これは、少なくとも一部の大規模言語モデルが、線形化されたAMRから自然文の内容をかなり復元できることを示す。SAMSumの対話要約では、Llama 3.1のゼロショット設定で、文脈のみのコサイン類似度66%に対し、AMR併用は76%であった。3ショットと5ショットでも、AMR併用の平均値は文脈のみをわずかに上回った。LoRAによる軽量ファインチューニングも試され、AMR併用で75%から76%へ小さく改善したが、少数例プロンプトを明確に上回るものではなかった。SQuAD 2.0では反対に、Llama 3.1の3ショットF1が文脈のみで59%、AMR併用で52%となり、短い文脈ではAMRが負担になる傾向が見られた。HotpotQAやDocNLIでは結果が安定せず、長文脈であってもAMRが常に有利になるとはいえない。SNLIではPhi-3のゼロショットでAMR併用が文脈のみを上回ったが、少数例を加えると文脈のみが最良となった。

具体例

たとえば、家族の予定を話し合う短い対話を要約する場面を考える。入力は、「明日は母の通院がある」「兄が車を出せない」「姉が午前中なら送れる」「父には薬局に寄ってほしい」といった発話が数ターン続く会話である。文脈のみのプロンプトでは、モデルは発話の順序と表現をそのまま読み、誰が何をするのかを要約する。AMR併用では、この会話に加えて、「送る」「できない」「寄る」といった出来事と、その主体や対象を表す構造化された記号列も渡される。期待される出力は、「姉が午前中に母を病院へ送り、父が薬局に寄る予定で、兄は車を出せない」という要約である。間違えやすい点は、兄が送る人物であると取り違えること、薬局に寄る人を母と誤ること、また「午前中なら」という条件を落とすことである。AMRがうまく働く場合、発話の離れた場所に現れる主体、行為、条件の対応が保たれ、長い会話でも要点を失いにくくなる。逆に、もとの文が短く単純な場合には、AMRの記号列が余計な入力となり、モデルの注意を散らすことがある。