LLMSR@XLLM25: Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation
- LLMSR@XLLM25 の低資源な構造化推論課題に対し、24 件のラベル付き例から訓練データを作る手法を示す。
- 逆方向のプロンプト誘導、検索拡張型 in-context learning、報酬モデルによる二段階フィルタリングを組み合わせる。
- Meta-Llama-3-8B-Instruct を LoRA+ で各サブタスクに微調整し、共有タスクで 3 位となった。
論文の面白いところ
この論文は、大量の教師データを増やすのではなく、少数の例から作ったデータを厳しく選ぶ点に主眼を置く。扱う課題は、問題文から条件を取り出し、推論の各段階を文として分け、その文が証拠によって支えられるかを判定するものである。出発点となる人手ラベルは 24 件に限られるため、通常の微調整だけでは十分な汎化が望みにくい。著者らは GPT-4o を用いて候補となる構造化推論データを合成し、そのまま使わずに、形式の破綻と意味的な弱さを取り除く。とくに、few-shot 条件と zero-shot 条件の両方で報酬を測り、その平均で例を選ぶ設計が実験上もっともよい結果を示した。これは、生成した説明が整った JSON であるだけでは足りず、問題文と推論文との対応が保たれている必要があることを示している。小規模な共有タスクのシステム論文ではあるが、低資源環境で推論データを作る際の手順が比較的追いやすい。
問題設定
LLMSR@XLLM25 は、Large Language Model for Structural Reasoning(LLM-SR)を対象とする共有タスクである。参加システムは、自然言語の論理問題を構造化し、推論過程を解釈可能な形で出力しなければならない。論文では主に Question Parsing(QP)と Unified CoT Reasoning(UCoT)を扱う。QP は、問題文から解答に必要な条件や関係をリストとして取り出す処理である。UCoT は、Chain-of-Thought(CoT)を原子的な推論文に分け、各文について根拠となる証拠と検証ラベルを付ける処理である。この課題では、人手で与えられた例が 24 件しかないため、通常の教師あり学習の前提が成り立ちにくい。さらに、最終解だけでなく、途中の文と証拠の対応も評価されるため、表面的にもっともらしい説明は得点につながりにくい。
提案手法
提案手法 Less is More は、訓練データの合成、選別、サブタスク別の微調整からなる多エージェント型の枠組みである。まず、少数の seed 例を用い、逆方向のプロンプト誘導によって QP と UCoT のためのタスク別プロンプトを作る。次に、LogiQA の未ラベル問題に対して、類似する例を BAAI/bge-m3 で検索し、検索拡張型 in-context learning と GPT-4o により構造化アノテーションを合成する。UCoT の出力は JSON 形式で、推論文、証拠、真偽ラベルを含む。合成データはまず構造フィルタで選別され、壊れた JSON、短すぎる推論、解析不能な例が取り除かれる。続いて LLaMA3 系の報酬モデルにより、few-shot プロンプト、zero-shot プロンプト、およびその平均に基づく三種類のフィルタリングを行う。最後に、QP、CoT Parsing(CP)、CoT Verification(CV)の各エージェントを Meta-Llama-3-8B-Instruct から LoRA+ で独立に微調整する。
結果
実験では、同じ微調整設定の下で、フィルタリング戦略だけを変えて比較している。構造フィルタのみの場合、Question F1 は 56.87、Statement F1 は 36.72、Evidence F1 は 10.80、Reasoning F1 は 5.20 であった。zero-shot 報酬による選別では、それぞれ 62.76、38.05、12.79、7.15 に上がった。5-shot 報酬では 65.89、38.26、14.45、7.70 となり、さらに改善した。few-shot と zero-shot の平均報酬を用いた場合が最良で、Question F1 は 66.71、Statement F1 は 39.21、Evidence F1 は 14.92、Reasoning F1 は 8.98 であった。構造フィルタのみと比べると、Reasoning F1 は 3.78 ポイント、Evidence F1 は 4.12 ポイント上がる。著者らのシステムは LLMSR@XLLM25 で 3 位となり、低資源条件ではデータ量よりも選別の質が成績を左右することを示した。
具体例
たとえば、「8 人の司法関係者の会合で、1 人は 3 人を知り、3 人は 2 人を知り、4 人は 1 人を知っていた。この統計からもっともよく導ける結論は何か」という問題があるとする。QP エージェントは、選択肢をそのまま解く前に、「参加者は 8 人である」「1 人は 3 人を知っている」「3 人は 2 人を知っている」「4 人は 1 人を知っている」という条件を抜き出す。次に CP エージェントは、推論過程を「会合内の知人関係にはばらつきがある」「全員が初対面であるとはいえない」「知っているという事実だけでは親友かどうかは分からない」といった小さな文に分ける。CV エージェントは、それぞれの文について、問題文のどの条件が根拠になるかを示し、その文が根拠から成り立つかを判定する。期待される出力は、単なる答えの記号ではなく、条件のリスト、推論文の列、各推論文に対応する証拠と真偽である。間違えやすい点は、知人の人数分布から「議長が最も多くの人を知っている」など、問題文に書かれていない階層関係を補ってしまうことである。また、「知っている」を「親しい」と読み替えることも、証拠のない推測である。この論文の手法は、こうした推測を推論文と証拠の照合という形で検査し、訓練データを作る段階でも同じ観点から質の低い例を落とす。