Enhancing AMR Parsing with Group Relative Policy Optimization

生成日: 2026-05-24 02:20

# Enhancing AMR Parsing with Group Relative Policy Optimization
- Abstract Meaning Representation（AMR）解析を、Llama 3.2 1Bの教師あり微調整とGroup Relative Policy Optimization（GRPO）で改善する研究である。
- GRPOの報酬には、Smatch、構文として読めること、PropBankの項構造への適合、and・or節点の整合性が同じ重みで組み込まれる。
- AMR 3.0ではLlama-GRPOがSmatch++ F1 81.92を得て、Llama-SFTとSPRINGを上回り、低層の意味制約でも改善を示した。

## 論文の面白いところ

この論文は、AMR解析を単なる文字列生成ではなく、出力グラフが守るべき約束を直接最適化する課題として扱っている。AMRは文の意味を概念と関係のグラフで表す枠組みであり、機械翻訳、質問応答、要約、事実性評価などで使われる。近年のAMRパーサは高い性能に達しているが、GroschwitzらのGrAPES評価が示すように、細かな意味現象ではまだ誤りが残る。著者らは、大きな専用モデルではなく、公開されているLlama 3.2 1Bを用いる。まず教師あり微調整だけでAMRを生成できるようにし、その後、GRPOで出力の性質を調整する。報酬は全体の類似度だけでなく、述語フレームの項が正しいか、andやorのオペランド番号が連続しているかといった小さな規則を含む。ここが実用上興味深い点である。AMRは下流処理に渡される構造なので、少しSmatchが高いだけでなく、読めないグラフや規則違反のグラフを減らすことが重要になる。論文は、強化学習を人間の好み付けではなく、形式的な意味表現の品質制御に使う例として読める。

## 問題設定

本研究の課題は、英語文をAbstract Meaning Representation（AMR）のグラフへ変換するAMR parsingである。AMRでは、文中の出来事、参加者、修飾関係、否定、論理結合などが、括弧付きの線形表現として記される。評価には、標準的なAMR 3.0の訓練・テスト集合と、領域外評価としてThe Little Prince（TLP）のテスト集合が用いられる。AMR 3.0の訓練文は55,635文、テスト文は1,898文であり、TLPのテスト文は143文である。通常の教師あり学習では、正解グラフとのトークン単位の近さを学ぶため、出力の形式的な性質を直接には罰しにくい。たとえば、グラフがAMRツールで解析できない、PropBankの述語フレームに存在しない項を付ける、andやorの番号を飛ばす、といった誤りが起こる。これらは一見すると小さな誤りであるが、意味グラフとしては後続処理を壊しやすい。論文の問いは、教師あり微調整で得たLlamaベースのAMRパーサに、GRPOを重ねることで、全体の精度と構造上の制約遵守を同時に改善できるかである。比較対象には、BART系の既存AMRパーサであるSPRINGも置かれている。

## 提案手法

著者らは、まずLlama 3.2 1BをAMR 3.0で教師あり微調整し、Llama-SFTを作る。訓練では過学習を避けるため、検証損失に基づくearly stoppingを用い、2エポックで停止した。AMRグラフは、wikiタグを除き、深さ優先の順序で一行の線形表現へ直される。改行や余分な空白は整理され、括弧の周囲にも空白を入れてトークン化をそろえる。次に、Llama-SFTの出力を観察し、頻出する低層の誤りを報酬設計に反映する。GRPOでは、同じ入力に対して複数の出力をサンプルし、その集団内で報酬が高い出力の確率を相対的に上げる。Proximal Policy Optimization（PPO）と異なり、別の価値関数モデルを学習しないため、計算資源を抑えやすい。報酬は4種類で構成される。第一は生成グラフがAMRパーサで読めるかというparsabilityである。第二は、各述語フレームがPropBankで定義された項を使っている割合である。第三は、andとorの節点で:op1、:op2、:op3のようなオペランドが連続している割合である。第四は、正解AMRとのSmatch F1であり、低い値には二乗スケーリングにより強い罰が与えられる。

## 結果

AMR 3.0のテスト集合では、Llama-SFTのSmatch++ F1は79.58であった。GRPOを1エポック加えたLlama-GRPOは81.92となり、2.3点あまり改善した。SPRINGは同じAMR 3.0で80.15であり、この設定ではLlama-GRPOが上回った。TLPでは、Llama-SFTが78.06、Llama-GRPOが78.30、SPRINGが81.12であり、領域外の小規模集合ではSPRINGが高かった。構造上の制約では、Llama-GRPOの効果がはっきり出ている。AMR 3.0でのframe-argument correctnessは、Llama-SFTの0.96491から0.99178へ上がった。AND-OR correctnessも、0.96514から0.99624へ改善した。TLPでは、frame-argument correctnessが0.99758、AND-OR correctnessが1.00000に達した。GrAPESのPrerequisites評価では、Llama-GRPOが多くの言語現象で必要なグラフ構造をより安定して作った。希少な述語語義、受動文、命令文、非対格構文などで改善が見られる。一方で、Edge RecallではSPRINGが強い項目もあり、専用のAMR語彙やトークナイザを持つ既存パーサの利点も残る。著者らは、モデル規模が1Bに限られること、英語AMRだけを扱うこと、評価集合が事前学習データに含まれていた可能性を調べていないことを限界として挙げている。

## 具体例

入力文として、「The committee approved the plan and revised the budget.」を考える。AMR解析では、この文を、承認する出来事、修正する出来事、committee、plan、budgetの関係として表す。期待される出力では、approve-01の行為者にcommitteeが入り、対象にplanが入る。revise-01にも同じcommitteeが関わり、対象にbudgetが置かれる。さらに、二つの出来事はandで結ばれ、:op1と:op2のように連続した番号のオペランドとして記される必要がある。教師あり微調整だけのモデルは、意味の大筋を取れても、andの下に:op1と:op3だけを出す、あるいはapprove-01に存在しない項番号を付けることがある。この場合、人間には意図が分かっても、AMRグラフとしては不整合であり、後続の評価や検索に悪影響が出る。提案手法では、GRPOの報酬がそのような不整合を直接罰するため、正解に似たグラフであるだけでなく、AMRの規則に沿ったグラフが選ばれやすくなる。誤りやすい点は、自然文では省略されている主語の共有や、andの範囲を正しく読むことであり、論文の報酬設計はこの種の形式的な崩れを減らす方向に働く。

Enhancing AMR Parsing with Group Relative Policy Optimization

Abstract Meaning Representation（AMR）解析を、Llama 3.2 1Bの教師あり微調整とGroup Relative Policy Optimization（GRPO）で改善する研究である。
GRPOの報酬には、Smatch、構文として読めること、PropBankの項構造への適合、and・or節点の整合性が同じ重みで組み込まれる。
AMR 3.0ではLlama-GRPOがSmatch++ F1 81.92を得て、Llama-SFTとSPRINGを上回り、低層の意味制約でも改善を示した。

論文の面白いところ

この論文は、AMR解析を単なる文字列生成ではなく、出力グラフが守るべき約束を直接最適化する課題として扱っている。AMRは文の意味を概念と関係のグラフで表す枠組みであり、機械翻訳、質問応答、要約、事実性評価などで使われる。近年のAMRパーサは高い性能に達しているが、GroschwitzらのGrAPES評価が示すように、細かな意味現象ではまだ誤りが残る。著者らは、大きな専用モデルではなく、公開されているLlama 3.2 1Bを用いる。まず教師あり微調整だけでAMRを生成できるようにし、その後、GRPOで出力の性質を調整する。報酬は全体の類似度だけでなく、述語フレームの項が正しいか、andやorのオペランド番号が連続しているかといった小さな規則を含む。ここが実用上興味深い点である。AMRは下流処理に渡される構造なので、少しSmatchが高いだけでなく、読めないグラフや規則違反のグラフを減らすことが重要になる。論文は、強化学習を人間の好み付けではなく、形式的な意味表現の品質制御に使う例として読める。

問題設定

本研究の課題は、英語文をAbstract Meaning Representation（AMR）のグラフへ変換するAMR parsingである。AMRでは、文中の出来事、参加者、修飾関係、否定、論理結合などが、括弧付きの線形表現として記される。評価には、標準的なAMR 3.0の訓練・テスト集合と、領域外評価としてThe Little Prince（TLP）のテスト集合が用いられる。AMR 3.0の訓練文は55,635文、テスト文は1,898文であり、TLPのテスト文は143文である。通常の教師あり学習では、正解グラフとのトークン単位の近さを学ぶため、出力の形式的な性質を直接には罰しにくい。たとえば、グラフがAMRツールで解析できない、PropBankの述語フレームに存在しない項を付ける、andやorの番号を飛ばす、といった誤りが起こる。これらは一見すると小さな誤りであるが、意味グラフとしては後続処理を壊しやすい。論文の問いは、教師あり微調整で得たLlamaベースのAMRパーサに、GRPOを重ねることで、全体の精度と構造上の制約遵守を同時に改善できるかである。比較対象には、BART系の既存AMRパーサであるSPRINGも置かれている。

提案手法

著者らは、まずLlama 3.2 1BをAMR 3.0で教師あり微調整し、Llama-SFTを作る。訓練では過学習を避けるため、検証損失に基づくearly stoppingを用い、2エポックで停止した。AMRグラフは、wikiタグを除き、深さ優先の順序で一行の線形表現へ直される。改行や余分な空白は整理され、括弧の周囲にも空白を入れてトークン化をそろえる。次に、Llama-SFTの出力を観察し、頻出する低層の誤りを報酬設計に反映する。GRPOでは、同じ入力に対して複数の出力をサンプルし、その集団内で報酬が高い出力の確率を相対的に上げる。Proximal Policy Optimization（PPO）と異なり、別の価値関数モデルを学習しないため、計算資源を抑えやすい。報酬は4種類で構成される。第一は生成グラフがAMRパーサで読めるかというparsabilityである。第二は、各述語フレームがPropBankで定義された項を使っている割合である。第三は、andとorの節点で:op1、:op2、:op3のようなオペランドが連続している割合である。第四は、正解AMRとのSmatch F1であり、低い値には二乗スケーリングにより強い罰が与えられる。

結果

AMR 3.0のテスト集合では、Llama-SFTのSmatch++ F1は79.58であった。GRPOを1エポック加えたLlama-GRPOは81.92となり、2.3点あまり改善した。SPRINGは同じAMR 3.0で80.15であり、この設定ではLlama-GRPOが上回った。TLPでは、Llama-SFTが78.06、Llama-GRPOが78.30、SPRINGが81.12であり、領域外の小規模集合ではSPRINGが高かった。構造上の制約では、Llama-GRPOの効果がはっきり出ている。AMR 3.0でのframe-argument correctnessは、Llama-SFTの0.96491から0.99178へ上がった。AND-OR correctnessも、0.96514から0.99624へ改善した。TLPでは、frame-argument correctnessが0.99758、AND-OR correctnessが1.00000に達した。GrAPESのPrerequisites評価では、Llama-GRPOが多くの言語現象で必要なグラフ構造をより安定して作った。希少な述語語義、受動文、命令文、非対格構文などで改善が見られる。一方で、Edge RecallではSPRINGが強い項目もあり、専用のAMR語彙やトークナイザを持つ既存パーサの利点も残る。著者らは、モデル規模が1Bに限られること、英語AMRだけを扱うこと、評価集合が事前学習データに含まれていた可能性を調べていないことを限界として挙げている。

具体例

入力文として、「The committee approved the plan and revised the budget.」を考える。AMR解析では、この文を、承認する出来事、修正する出来事、committee、plan、budgetの関係として表す。期待される出力では、approve-01の行為者にcommitteeが入り、対象にplanが入る。revise-01にも同じcommitteeが関わり、対象にbudgetが置かれる。さらに、二つの出来事はandで結ばれ、:op1と:op2のように連続した番号のオペランドとして記される必要がある。教師あり微調整だけのモデルは、意味の大筋を取れても、andの下に:op1と:op3だけを出す、あるいはapprove-01に存在しない項番号を付けることがある。この場合、人間には意図が分かっても、AMRグラフとしては不整合であり、後続の評価や検索に悪影響が出る。提案手法では、GRPOの報酬がそのような不整合を直接罰するため、正解に似たグラフであるだけでなく、AMRの規則に沿ったグラフが選ばれやすくなる。誤りやすい点は、自然文では省略されている主語の共有や、andの範囲を正しく読むことであり、論文の報酬設計はこの種の形式的な崩れを減らす方向に働く。