Untitled

生成日: 2026-05-24 02:20

# Untitled
# Beyond the Answer: Advancing Multi-Hop QA with Fine-Grained Graph Reasoning and Evaluation

title: Beyond the Answer: Advancing Multi-Hop QA with Fine-Grained Graph Reasoning and Evaluation  
source_url: https://aclanthology.org/2025.acl-long.1142/  
doi: 10.18653/v1/2025.acl-long.1142  
generated_at: 2026-05-10T22:42:56Z

- 多段階質問応答（Multi-Hop Question Answering; MHQA）を、最終回答だけでなく途中の推論手順まで評価する研究である。
- 著者らは Planner-Executor-Reasoner（PER）という枠組みを置き、質問の分解、部分質問への回答、最終回答の生成をグラフとして扱う。
- HotpotQA、2WikiMultihopQA、MuSiQue から 8,394 件の中間手順付きデータを作り、Plan-aligned Stepwise Evaluation（PSE）で計画と部分回答を評価した。

## 論文の面白いところ

この論文の主眼は、答えが合っていても推論が合っているとは限らない、という素朴だが重要な点にある。多段階質問応答では、ある人物の所属を調べ、その所属組織の性質を調べる、といった連鎖がしばしば必要になる。従来の Exact Match（EM）や F1 は、最後の文字列が正しいかを主に見るため、途中で誤った事実を使った場合でも評価に現れにくい。著者らはこの欠点を、質問を部分計画のグラフとして表し、各節点の意味と答えを照合することで補おうとする。とくに興味深いのは、検索拡張生成（Retrieval-Augmented Generation; RAG）を使った場合にも、途中の失敗が隠れる例を示している点である。論文では、比較質問では途中に誤りがあっても最終回答だけ偶然合う現象を “fortuitous reasoning continuance” と呼ぶ。また、橋渡し型の質問では、途中で道を外れているのに推論が続いてしまう現象を “latent reasoning suspension” と呼ぶ。命名はやや硬いが、観察している現象は実務上も分かりやすい。RAG システムを「根拠付きだから安全」と見るだけでは足りず、根拠の使い方そのものを見る必要がある、という読みが自然に得られる。

## 問題設定

対象は、複数の文書や事実をたどって答える多段階質問応答である。単一文書から答えを抜き出す質問とは異なり、この設定では一つ目の答えが二つ目の質問の手がかりになることが多い。たとえば「Desert Studies Center が属する機関にはキャンパスがいくつあるか」という問いでは、まず Desert Studies Center の所属機関を調べ、その結果として得た California State University についてキャンパス数を調べる。ここで最終回答だけを見ると、どの段階で誤ったか、あるいは正しい段階を踏んだかが分からない。既存データセットには最終回答や根拠文書はあっても、統一された中間推論手順が十分に付いていない場合がある。さらに、手法ごとに質問の分解の仕方が異なるため、途中手順を単純に比較しにくい。著者らはこの状況を、データ作成、推論手法、評価指標をそろえて扱う問題として定式化する。評価したいのは、最終回答の正誤だけでなく、計画が妥当か、部分質問の答えが妥当か、そしてそれらが最終回答につながっているかである。

## 提案手法

提案の中心は Planner-Executor-Reasoner（PER）である。Planner は入力された多段階質問を、部分計画の節点と実行順序の辺からなるグラフに変換する。Executor はその計画に従って部分質問を作り、順に答える。Reasoner は得られた部分質問と部分回答を線形化し、最終回答を生成する。この PER を用いて、著者らは二つの処理系を構成する。一つは Plan-anchored Data Preprocessing（PER-DP）で、HotpotQA、2WikiMultihopQA、MuSiQue のデータに中間推論手順を付与する前処理である。もう一つは Plan-guided Multi-Hop QA（PER-QA）で、PER の形で実際に多段階質問に答える手法である。PER-QA には、外部検索を使わない PER-QA vanilla と、RAG を使う PER-QA rag がある。評価には Plan-aligned Stepwise Evaluation（PSE）を用いる。PSE は、予測された計画と正解計画を意味類似度とグラフ構造で対応付け、対応した部分回答の F1 も測る。最終的な PSE-GF1 は、計画の対応度と部分回答の品質を合わせて、中間推論の質を見るための値として使われる。

## 結果

PER-DP により、合計 8,394 件の中間手順付きデータが作られた。内訳は HotpotQA が 2,218 件、2WikiMultihopQA が 4,204 件、MuSiQue が 1,972 件である。人手評価では、PER-DP の計画一致率は HotpotQA で 92.5%、2WikiMultihopQA で 99.2%、MuSiQue で 94.0%だった。部分回答の一致率も、おおむね 90% 前後からそれ以上であり、前処理データの品質は一定程度保たれている。PER-QA の最終回答 F1 は、外部検索なしの設定で既存の Llama 系ベースラインを上回り、HotpotQA、2WikiMultihopQA、MuSiQue でそれぞれ 3.9、1.7、1.6 ポイントの改善を示した。RAG 設定では、最良ベースラインに対して 0.4、3.6、2.6 ポイントの改善が報告されている。細かな内訳では、PER-QA rag は 10 種類の質問型のうち 7 種類で最良の F1 を得た。一方で、2-hop bridge 型では Self-Ask が有利な場合もあり、これは Self-Ask に大きめの反復上限を与えたため、より細かく分解と検索を行えたことが理由とされる。PSE の分析では、最終回答 F1 だけでは見えない差が現れた。比較質問では途中の推論が誤っていても最終回答が合う例が多く、橋渡し型では誤った中間手順がそのまま後続の質問を歪める例が目立つ。

## 具体例

「ある映画の監督が生まれた都市は、どの国にあるか」といった質問を考える。入力は一文の質問だけだが、答えるにはまず映画の監督を特定し、次にその監督の出生地を調べ、最後にその都市が属する国を答える必要がある。PER では、Planner が「映画の監督を尋ねる」「その監督の出生地を尋ねる」「その出生地の国を尋ねる」という順序付きの計画を作る。Executor は第一段階で監督名を得て、その名前を第二段階の部分質問に埋め込み、さらに得られた都市名を第三段階の部分質問に渡す。Reasoner は、これらの部分質問と部分回答を根拠列として受け取り、最終的な国名を出す。期待される出力は国名だけでもよいが、この論文の評価では、そこに至る部分回答も確認される。間違えやすいのは、一段階目で同名の映画を取り違え、その後の検索がすべて別の人物について進む場合である。この場合、最終回答がたまたま同じ国名になることもあるが、PSE は計画と部分回答の対応を調べるため、その偶然をある程度見分けられる。逆に、都市名の表記が少し異なるだけの場合には、F1 評価が人間より厳しくなることもあり、論文でもその限界に触れている。

Untitled

Beyond the Answer: Advancing Multi-Hop QA with Fine-Grained Graph Reasoning and Evaluation

title: Beyond the Answer: Advancing Multi-Hop QA with Fine-Grained Graph Reasoning and Evaluation
source_url: https://aclanthology.org/2025.acl-long.1142/
doi: 10.18653/v1/2025.acl-long.1142
generated_at: 2026-05-10T22:42:56Z

多段階質問応答（Multi-Hop Question Answering; MHQA）を、最終回答だけでなく途中の推論手順まで評価する研究である。
著者らは Planner-Executor-Reasoner（PER）という枠組みを置き、質問の分解、部分質問への回答、最終回答の生成をグラフとして扱う。
HotpotQA、2WikiMultihopQA、MuSiQue から 8,394 件の中間手順付きデータを作り、Plan-aligned Stepwise Evaluation（PSE）で計画と部分回答を評価した。

論文の面白いところ

この論文の主眼は、答えが合っていても推論が合っているとは限らない、という素朴だが重要な点にある。多段階質問応答では、ある人物の所属を調べ、その所属組織の性質を調べる、といった連鎖がしばしば必要になる。従来の Exact Match（EM）や F1 は、最後の文字列が正しいかを主に見るため、途中で誤った事実を使った場合でも評価に現れにくい。著者らはこの欠点を、質問を部分計画のグラフとして表し、各節点の意味と答えを照合することで補おうとする。とくに興味深いのは、検索拡張生成（Retrieval-Augmented Generation; RAG）を使った場合にも、途中の失敗が隠れる例を示している点である。論文では、比較質問では途中に誤りがあっても最終回答だけ偶然合う現象を “fortuitous reasoning continuance” と呼ぶ。また、橋渡し型の質問では、途中で道を外れているのに推論が続いてしまう現象を “latent reasoning suspension” と呼ぶ。命名はやや硬いが、観察している現象は実務上も分かりやすい。RAG システムを「根拠付きだから安全」と見るだけでは足りず、根拠の使い方そのものを見る必要がある、という読みが自然に得られる。

問題設定

対象は、複数の文書や事実をたどって答える多段階質問応答である。単一文書から答えを抜き出す質問とは異なり、この設定では一つ目の答えが二つ目の質問の手がかりになることが多い。たとえば「Desert Studies Center が属する機関にはキャンパスがいくつあるか」という問いでは、まず Desert Studies Center の所属機関を調べ、その結果として得た California State University についてキャンパス数を調べる。ここで最終回答だけを見ると、どの段階で誤ったか、あるいは正しい段階を踏んだかが分からない。既存データセットには最終回答や根拠文書はあっても、統一された中間推論手順が十分に付いていない場合がある。さらに、手法ごとに質問の分解の仕方が異なるため、途中手順を単純に比較しにくい。著者らはこの状況を、データ作成、推論手法、評価指標をそろえて扱う問題として定式化する。評価したいのは、最終回答の正誤だけでなく、計画が妥当か、部分質問の答えが妥当か、そしてそれらが最終回答につながっているかである。

提案手法

提案の中心は Planner-Executor-Reasoner（PER）である。Planner は入力された多段階質問を、部分計画の節点と実行順序の辺からなるグラフに変換する。Executor はその計画に従って部分質問を作り、順に答える。Reasoner は得られた部分質問と部分回答を線形化し、最終回答を生成する。この PER を用いて、著者らは二つの処理系を構成する。一つは Plan-anchored Data Preprocessing（PER-DP）で、HotpotQA、2WikiMultihopQA、MuSiQue のデータに中間推論手順を付与する前処理である。もう一つは Plan-guided Multi-Hop QA（PER-QA）で、PER の形で実際に多段階質問に答える手法である。PER-QA には、外部検索を使わない PER-QA vanilla と、RAG を使う PER-QA rag がある。評価には Plan-aligned Stepwise Evaluation（PSE）を用いる。PSE は、予測された計画と正解計画を意味類似度とグラフ構造で対応付け、対応した部分回答の F1 も測る。最終的な PSE-GF1 は、計画の対応度と部分回答の品質を合わせて、中間推論の質を見るための値として使われる。

結果

PER-DP により、合計 8,394 件の中間手順付きデータが作られた。内訳は HotpotQA が 2,218 件、2WikiMultihopQA が 4,204 件、MuSiQue が 1,972 件である。人手評価では、PER-DP の計画一致率は HotpotQA で 92.5%、2WikiMultihopQA で 99.2%、MuSiQue で 94.0%だった。部分回答の一致率も、おおむね 90% 前後からそれ以上であり、前処理データの品質は一定程度保たれている。PER-QA の最終回答 F1 は、外部検索なしの設定で既存の Llama 系ベースラインを上回り、HotpotQA、2WikiMultihopQA、MuSiQue でそれぞれ 3.9、1.7、1.6 ポイントの改善を示した。RAG 設定では、最良ベースラインに対して 0.4、3.6、2.6 ポイントの改善が報告されている。細かな内訳では、PER-QA rag は 10 種類の質問型のうち 7 種類で最良の F1 を得た。一方で、2-hop bridge 型では Self-Ask が有利な場合もあり、これは Self-Ask に大きめの反復上限を与えたため、より細かく分解と検索を行えたことが理由とされる。PSE の分析では、最終回答 F1 だけでは見えない差が現れた。比較質問では途中の推論が誤っていても最終回答が合う例が多く、橋渡し型では誤った中間手順がそのまま後続の質問を歪める例が目立つ。

具体例

「ある映画の監督が生まれた都市は、どの国にあるか」といった質問を考える。入力は一文の質問だけだが、答えるにはまず映画の監督を特定し、次にその監督の出生地を調べ、最後にその都市が属する国を答える必要がある。PER では、Planner が「映画の監督を尋ねる」「その監督の出生地を尋ねる」「その出生地の国を尋ねる」という順序付きの計画を作る。Executor は第一段階で監督名を得て、その名前を第二段階の部分質問に埋め込み、さらに得られた都市名を第三段階の部分質問に渡す。Reasoner は、これらの部分質問と部分回答を根拠列として受け取り、最終的な国名を出す。期待される出力は国名だけでもよいが、この論文の評価では、そこに至る部分回答も確認される。間違えやすいのは、一段階目で同名の映画を取り違え、その後の検索がすべて別の人物について進む場合である。この場合、最終回答がたまたま同じ国名になることもあるが、PSE は計画と部分回答の対応を調べるため、その偶然をある程度見分けられる。逆に、都市名の表記が少し異なるだけの場合には、F1 評価が人間より厳しくなることもあり、論文でもその限界に触れている。