Untitled
title: "LLMSR@XLLM25: A Language Model-Based Pipeline for Structured Reasoning Data Construction" source_url: "https://aclanthology.org/2025.xllm-1.31/" doi: "10.18653/v1/2025.xllm-1.31" generated_at: "2026-05-05T16:27:10+00:00"
- XLLM 2025 の LLM for Structural Reasoning(LLM-SR)共有タスクにおける、構造化推論データ構築のためのパイプラインを述べる。
- 問題文から条件を抽出し、Chain-of-Thought(CoT)から文と証拠を取り出し、その対応が論理的に成り立つかを判定する。
- 24 件の注釈付き例だけを起点に、擬似ラベル、規則に基づく報酬、批判文生成による検証を組み合わせ、共有タスクで 1 位となった。
論文の面白いところ
この論文の主眼は、大きなモデルをそのまま使うことではなく、小さめのモデルを、タスクの形に合わせて細かく使い分ける点にある。共有タスクでは、基盤モデルとして Llama-3-8B-Instruct を用いる制約があり、訓練データも 24 件に限られていた。著者らは、少数例から直接すべてを出力させるのではなく、条件抽出、文抽出、証拠抽出、検証という処理に分けた。とくに文抽出では、人手注釈の規則をプロンプトに書くだけでなく、Gradient Reward Policy Optimization(GRPO)の報酬として使っている。たとえば、抽出される文は原文に由来すること、長さが一定範囲に収まること、条件文と重複しないこと、といった規則である。これは、曖昧な推論能力を鍛えるというより、構造化出力の作法をモデルに覚えさせる試みである。検証についても、真偽だけを答えさせず、証拠が文を支える理由または支えない理由を短く批判させる。論文の価値は、低資源の共有タスクで順位を得たことに加え、自然言語理解の古典的な抽出問題に、報酬設計と批判生成を比較的素直に接続している点にある。
問題設定
対象となる LLM-SR タスクは、論理問題と、その問題に対する Chain-of-Thought(CoT)を入力として受け取る。出力は大きく二つに分かれる。第一に、問題文から、解答に必要な条件をすべて取り出す question parsing がある。第二に、CoT の中から、推論途中で得られた statement と、それを支える evidence を対応づけ、さらに evidence から statement が導けるかを判定する CoT parsing がある。評価では、抽出した条件、文、証拠、検証結果が、正解注釈と意味的および語彙的に一致するかを見る。意味類似度には nli-deberta-v3-base を使い、語彙類似度には METEOR を用いる。条件抽出では 0.95、CoT 解析では 0.9 という高い閾値を超えたものだけが一致とみなされる。証拠の評価は、対応する statement がまず一致している場合に限られる。最終指標は、四つの要素に対する macro F1 である。訓練用の注釈付きデータは 24 件で、問題は LogiQA に由来し、CoT は Llama-3-8B-Instruct により生成されている。
提案手法
著者らの手法は、直列に動く抽出と検証のパイプラインである。まず問題文を文または列挙条件に分割し、解答に必要な条件だけを残す。疑問文の中に条件が埋め込まれている場合、たとえば「G が米国へ行くなら、どれが必ず真か」という形では、その前提部分も条件として取り出す。次に CoT を細かい推論単位へ分け、そこから新しく得られた statement を抽出する。単純に “Step:” や改行だけで区切るのではなく、与えられた条件の要約、既知条件からの導出、新しい結論という観点で分ける。証拠抽出では、statement ごとに CoT 全体を検索し、その statement を支える文脈を探す。これは、証拠が直前の一文だけでなく、複数の推論段階にまたがることがあるためである。さらに、LogiQA から問題を取り、共有タスクの例を one-shot の参照として使い、擬似ラベル付きデータを増やす。文抽出には GRPO を用い、原文由来であること、文末がピリオドであること、長さが 4 語以上 50 語以下であること、接続詞を含まないこと、問題文から抽出した条件と重複しないことなどを報酬規則にする。検証では、DeepSeek V3-0324 により作った批判データを使い、statement と evidence の関係を短く説明してから妥当性を判断するモデルを学習する。
結果
実験では、条件抽出、文抽出、証拠抽出、推論検証の四つの成分について比較している。共有タスク上の最終提出では、著者らの TeleAI システムは question で 81.20、statement で 55.07、evidence で 22.44、reasoning で 17.09 を得た。Llama-3-8B-Instruct の in-context learning ベースラインは、それぞれ 73.01、42.40、18.10、10.32 であった。DeepSeek-R1 のベースラインは question では 81.87 と高かったが、statement は 44.84、evidence は 12.42、reasoning は 10.79 にとどまった。著者らの方法は、statement と reasoning で表中の最高値を示し、全体として共有タスクの 1 位となった。証拠抽出では 2 位チームの 23.57 を下回っており、この部分には改善の余地がある。アブレーションでは、直接抽出・検証から段階的な抽出パイプラインへ変えると、question は 61.19 から 81.20 へ、statement は 37.09 から 46.81 へ上がった。GRPO を加えると statement は 55.07 となり、証拠抽出の土台も改善した。批判にもとづく検証を加えると reasoning は 4.68 から 17.09 へ上がり、真偽分類よりも理由を述べさせる形が有効であったことを示している。
具体例
たとえば、学校が 7 人の学生 G、H、L、M、U、W、Z を英国または米国へ送るという論理問題を考える。問題文には、「G が英国へ行くなら H は米国へ行く」「L が英国へ行くなら M と U は米国へ行く」といった条件が並ぶ。入力には、さらにモデルが作った CoT が付いており、そこでは「G は米国へ行くので、条件 (1) は適用されない」「L の行き先は指定されていないので、条件 (2) も適用されない」といった推論が続く。提案手法は、まず問題文から「各学生は英国または米国のどちらか一方へ行く」「G が英国へ行くなら H は米国へ行く」という条件を取り出す。次に CoT から「条件 (1) は適用されない」という statement を取り、その evidence として「G は米国へ行く」を対応づける。検証モデルは、条件 (1) が G の英国行きを前提にしているため、G が米国へ行く場合にはその条件を使えない、と短く説明し、対応を真と判定する。間違えやすい点は、CoT の近くにある文だけを証拠とみなしてしまうことである。結論文が「以上より」と始まる場合、その根拠は前の複数文に散らばることがある。もう一つの誤りは、問題文にある条件そのものを、CoT で新しく得られた statement と重複して抽出してしまうことである。