\"LLMSR@XLLM25: An Empirical Study of LLM for Structural Reasoning\

生成日: 2026-05-24 02:20

# "LLMSR@XLLM25: An Empirical Study of LLM for Structural Reasoning"
- LLMSR@XLLM25 共有タスクに対し、未調整の Meta-Llama-3-8B-Instruct だけを用いた軽量な構成を報告している。
- 問題文から条件を列挙し、Chain-of-Thought（CoT）を statement と evidence の組へ分け、各組の論理的妥当性を判定する。
- ファインチューニング、検索、アンサンブルを用いず、2-shot の Question Parsing と 3-shot の CoT Parsing により最終順位 5 位を得た。

## 論文の面白いところ

この論文の見どころは、手の込んだ学習をせずに、共有タスクでかなり上位に入った点にある。使うモデルは Meta-Llama-3-8B-Instruct の素のままで、追加学習はしない。工夫の中心は、少数の例を添えた multi-turn prompt と、出力 JSON を整える小さな後処理である。大きなモデルや複雑なパイプラインが当然のように持ち込まれがちな課題で、著者らはまず「きちんと聞き、きちんと整える」ことの効き目を調べている。結果として、条件抽出は比較的よく動くが、statement と evidence の対応づけ、および推論の正否判定はまだ難しいことが見える。これは実用上も素直な示唆で、モデルに答えだけでなく理由も出させる場合、その理由を構造として検査する工程は簡単ではない。論文は大きな理論を打ち立てるというより、共有タスクの現場で使える基準線を置いた報告として読める。

## 問題設定

対象は LLMSR@XLLM25 の Task-III、すなわち Large Language Model for Structural Reasoning（LLM-SR）である。このタスクでは、モデルが生成した自由形式の Chain-of-Thought を、そのまま良し悪しで眺めるのではなく、細かな部品に分けて評価する。第一に、問題文に明示された条件をすべて取り出す必要がある。第二に、推論過程を statement と evidence の組へ分割する。第三に、その evidence が対応する statement を論理的に含意しているかを判定する。著者らはこれを Question Parsing（QP）と CoT Parsing & Verification（CP）の二段階として扱う。背景には、最終解答だけが正しくても、途中の推論が誤っていることがあるという、CoT 利用時のよく知られた問題がある。過程を評価できれば、Process Reward Modeling（PRM）のように、答えではなく解き方へ報酬を与える訓練にもつなげられる。

## 提案手法

提案手法は、未調整の Meta-Llama-3-8B-Instruct に対する few-shot in-context learning で構成される。まず QP では、問題文から明示条件を順序付きリストとして抽出する。次に CP では、問題文、CoT、QP の出力をまとめて与え、statement-evidence の抽出と verification の真偽判定を一度に行わせる。各呼び出しは SYSTEM、USER、ASSISTANT からなる三ターンの会話形式で設計されている。著者らは訓練データ 24 件から、QP 用に 2 例、CP 用に 3 例を手で選び、主要な論理パターンを覆うようにした。出力は公式スコアラーに渡す必要があるため、JSON 形式を強く指定し、例示回答も fenced code block の JSON として提示する。さらに後処理では、必須キーの確認、空白や引用符の正規化、重複条件の統合、statement と evidence の数の整合を行う。派手な機構ではないが、破れた JSON が評価全体を止める種類の課題では、この衛生管理がかなり効く。

## 結果

実験は LLMSR@XLLM25 の公式テストセットで行われた。QP の shot 数を 1 から 4 まで変えたところ、2-shot が Question_Macro_F1 0.7526 で最も高かった。3-shot と 4-shot では性能が下がり、例を増やせば単純によくなるわけではないことが示された。CP では QP を 2-shot に固定し、CP の例数を変えて調べている。最良は 3-shot で、Statement_Macro_F1 は 0.3304、Statement_Evidence_Macro_F1 は 0.1385、Reasoning_Macro_F1 は 0.0782 であった。最終構成は 2-shot QP と 3-shot CP で、Test A では QuestionF1 75.26、StmtF1 33.04、Stmt+EvF1 13.85、ReasoningF1 7.82 を得た。Test B では QuestionF1 75.33、StmtF1 47.26、Stmt+EvF1 20.17、ReasoningF1 11.64 である。共有タスク全体では 5 位となり、軽量な手法としては悪くない位置にある。ただし著者ら自身も述べるように、条件抽出に比べて論理判定の値は低く、ボトルネックは出力形式よりも推論の検証能力にある。

## 具体例

- Question Parsing（QP）は、問題文の中に書かれた条件を抜き出す工程である。
- 例として「A は B より前に起こる」「C は D と同時ではない」のような制約を、箇条書きの条件として並べる。
- Chain-of-Thought（CoT）は、モデルが答えに至るまでの途中説明を指す。
- statement は、CoT の中でモデルが主張している一つの推論文である。
- evidence は、その statement を支える根拠として、問題文や既出の条件から対応づけられる部分である。
- verification は、evidence から statement が本当に導けるかを True または False で判定する作業である。
- たとえば evidence が「A は B より前」とだけ述べているのに、statement が「A は最初である」と言うなら、追加条件なしには含意しない。
- QP の出力を CP の入力に足すのは、後段のモデルに「使ってよい条件一覧」を見せるためである。
- JSON 出力を要求するのは、評価プログラムが statement、evidence、verification という決まった項目を読むからである。
- 後処理は、余分な引用符、末尾の句読点、重複した条件などを直し、採点不能な形を減らすために置かれている。
- 論文中の結果を見る限り、条件を拾うことは 8B モデルでも比較的こなせるが、根拠と主張を正しく結び、否定や含意を扱う段階で失敗が増える。

"LLMSR@XLLM25: An Empirical Study of LLM for Structural Reasoning"

LLMSR@XLLM25 共有タスクに対し、未調整の Meta-Llama-3-8B-Instruct だけを用いた軽量な構成を報告している。
問題文から条件を列挙し、Chain-of-Thought（CoT）を statement と evidence の組へ分け、各組の論理的妥当性を判定する。
ファインチューニング、検索、アンサンブルを用いず、2-shot の Question Parsing と 3-shot の CoT Parsing により最終順位 5 位を得た。

論文の面白いところ

この論文の見どころは、手の込んだ学習をせずに、共有タスクでかなり上位に入った点にある。使うモデルは Meta-Llama-3-8B-Instruct の素のままで、追加学習はしない。工夫の中心は、少数の例を添えた multi-turn prompt と、出力 JSON を整える小さな後処理である。大きなモデルや複雑なパイプラインが当然のように持ち込まれがちな課題で、著者らはまず「きちんと聞き、きちんと整える」ことの効き目を調べている。結果として、条件抽出は比較的よく動くが、statement と evidence の対応づけ、および推論の正否判定はまだ難しいことが見える。これは実用上も素直な示唆で、モデルに答えだけでなく理由も出させる場合、その理由を構造として検査する工程は簡単ではない。論文は大きな理論を打ち立てるというより、共有タスクの現場で使える基準線を置いた報告として読める。

問題設定

対象は LLMSR@XLLM25 の Task-III、すなわち Large Language Model for Structural Reasoning（LLM-SR）である。このタスクでは、モデルが生成した自由形式の Chain-of-Thought を、そのまま良し悪しで眺めるのではなく、細かな部品に分けて評価する。第一に、問題文に明示された条件をすべて取り出す必要がある。第二に、推論過程を statement と evidence の組へ分割する。第三に、その evidence が対応する statement を論理的に含意しているかを判定する。著者らはこれを Question Parsing（QP）と CoT Parsing & Verification（CP）の二段階として扱う。背景には、最終解答だけが正しくても、途中の推論が誤っていることがあるという、CoT 利用時のよく知られた問題がある。過程を評価できれば、Process Reward Modeling（PRM）のように、答えではなく解き方へ報酬を与える訓練にもつなげられる。

提案手法

提案手法は、未調整の Meta-Llama-3-8B-Instruct に対する few-shot in-context learning で構成される。まず QP では、問題文から明示条件を順序付きリストとして抽出する。次に CP では、問題文、CoT、QP の出力をまとめて与え、statement-evidence の抽出と verification の真偽判定を一度に行わせる。各呼び出しは SYSTEM、USER、ASSISTANT からなる三ターンの会話形式で設計されている。著者らは訓練データ 24 件から、QP 用に 2 例、CP 用に 3 例を手で選び、主要な論理パターンを覆うようにした。出力は公式スコアラーに渡す必要があるため、JSON 形式を強く指定し、例示回答も fenced code block の JSON として提示する。さらに後処理では、必須キーの確認、空白や引用符の正規化、重複条件の統合、statement と evidence の数の整合を行う。派手な機構ではないが、破れた JSON が評価全体を止める種類の課題では、この衛生管理がかなり効く。

結果

実験は LLMSR@XLLM25 の公式テストセットで行われた。QP の shot 数を 1 から 4 まで変えたところ、2-shot が Question_Macro_F1 0.7526 で最も高かった。3-shot と 4-shot では性能が下がり、例を増やせば単純によくなるわけではないことが示された。CP では QP を 2-shot に固定し、CP の例数を変えて調べている。最良は 3-shot で、Statement_Macro_F1 は 0.3304、Statement_Evidence_Macro_F1 は 0.1385、Reasoning_Macro_F1 は 0.0782 であった。最終構成は 2-shot QP と 3-shot CP で、Test A では QuestionF1 75.26、StmtF1 33.04、Stmt+EvF1 13.85、ReasoningF1 7.82 を得た。Test B では QuestionF1 75.33、StmtF1 47.26、Stmt+EvF1 20.17、ReasoningF1 11.64 である。共有タスク全体では 5 位となり、軽量な手法としては悪くない位置にある。ただし著者ら自身も述べるように、条件抽出に比べて論理判定の値は低く、ボトルネックは出力形式よりも推論の検証能力にある。

具体例

Question Parsing（QP）は、問題文の中に書かれた条件を抜き出す工程である。
例として「A は B より前に起こる」「C は D と同時ではない」のような制約を、箇条書きの条件として並べる。
Chain-of-Thought（CoT）は、モデルが答えに至るまでの途中説明を指す。
statement は、CoT の中でモデルが主張している一つの推論文である。
evidence は、その statement を支える根拠として、問題文や既出の条件から対応づけられる部分である。
verification は、evidence から statement が本当に導けるかを True または False で判定する作業である。
たとえば evidence が「A は B より前」とだけ述べているのに、statement が「A は最初である」と言うなら、追加条件なしには含意しない。
QP の出力を CP の入力に足すのは、後段のモデルに「使ってよい条件一覧」を見せるためである。
JSON 出力を要求するのは、評価プログラムが statement、evidence、verification という決まった項目を読むからである。
後処理は、余分な引用符、末尾の句読点、重複した条件などを直し、採点不能な形を減らすために置かれている。
論文中の結果を見る限り、条件を拾うことは 8B モデルでも比較的こなせるが、根拠と主張を正しく結び、否定や含意を扱う段階で失敗が増える。