Untitled

生成日: 2026-05-24 02:20

# Untitled
---
title: "Verify with Caution: The Pitfalls of Relying on Imperfect Factuality Metrics"
source_url: "https://aclanthology.org/2025.findings-acl.1175/"
doi: "10.18653/v1/2025.findings-acl.1175"
generated_at: "2026-05-11T10:52:26+00:00"
---

- 自然言語生成の事実性評価に使われる Attribution to Identified Sources（AutoAIS）評価器を、11 データセット由来の LLM-AGGREFACT 上で再検討した論文である。
- GPT-4 Turbo、GPT-3.5 Turbo、Bespoke-Minicheck-7B、MiniCheck-FlanT5-Large、MiniCheck-RoBERTa-Large を比べ、同程度の balanced accuracy でも予測内容や誤り方が大きく異なることを示す。
- 評価器は言い換えの多い正しい出力や、長い文書の離れた箇所を結びつける正しい出力を不利に扱うことがあり、著者らは対象領域ごとの人手検証と較正を求めている。

## 論文の面白いところ

この論文は、新しい事実性評価器を提案するのではなく、評価器を使う側の前提を調べ直す。近年は大規模言語モデル（Large Language Model, LLM）を評価者として用いることが増え、要約、検索拡張生成（Retrieval-Augmented Generation, RAG）、質問応答などで、人手評価の代替として期待されている。本論文は、その期待がどの程度危ういかを、既存評価器の比較から示す。特に扱うのは、ある主張が与えられた根拠文書に十分支えられているかを判定する AutoAIS である。平均の balanced accuracy だけを見ると、上位の評価器は似た性能に見える。しかし、実際にどの例を「根拠なし」と判定するか、また生成システムごとの誤り率をどう推定するかは、評価器ごとに大きく違う。これは、評価器を研究開発の物差しとして使う場合に小さくない問題である。ある新手法が「幻覚を減らした」と見えるかどうかが、選んだ評価器に依存し得るためである。本論文の価値は、評価指標の点数そのものではなく、その点数がどのような誤差を隠しているかを読ませる点にある。

## 問題設定

対象となる問題は、文書 d と主張 c が与えられたとき、c の全情報が d によって支持されるかを判定することである。支持される場合を attributable、支持されない場合を unattributable とする。多くの自然言語生成システムでは、生成文を文単位の主張として分け、それぞれを根拠文書と照合して事実性を測る。この判定器が AutoAIS 評価器であり、研究ではしばしば人手アノテーションの代わりに使われる。著者らは、LLM-AGGREFACT に含まれるデータを用いて、要約、RAG、質問応答、Wikipedia 検証、Data-to-Text などをまたいで評価器を調べる。元の RAGTruth は四つの部分集合に分け、性質の違うタスクが混ざらないようにしている。その結果、分析対象は 14 個のデータセット相当になる。評価対象は、API ベースの GPT-4 Turbo と GPT-3.5 Turbo、および MiniCheck 系の三つのオープン重みモデルである。さらに、長い根拠文書を小さなチャンクに分けた場合の影響を見るため、Bespoke-7B に 500 トークンのチャンク制限を課した条件も調べる。

## 提案手法

著者らの方法は、評価器の平均点を出すだけではなく、下流利用で問題になる観点を分けて観察するものである。第一に、評価器同士が同じ例を同じように誤りとみなすかを、unattributable と予測された集合の Intersection-over-Union（IoU）で測る。第二に、balanced accuracy を真陽性率（True Positive Rate, TPR）と真陰性率（True Negative Rate, TNR）に分解し、同じ総合点の背後にある誤り方を調べる。第三に、生成システム単位で、人手ラベルに基づく誤り率と評価器が推定した誤り率の差を測る。これにより、評価器がシステムの幻覚率を過大評価するのか、過小評価するのかが分かる。第四に、システム間ランキングが人手ラベルによる順位と一致するかを調べる。第五に、評価器の偏りとして、主張と文書の表層的な語句重なりを ROUGE-2 precision で測り、重なりの大小が判定に与える影響を見る。長文処理については、文書全体で見た語句重なりと、各チャンクで最大になる語句重なりとの差を R2-diff として定義し、チャンク化で検証不能になりやすい例を取り出す。最後に、少量の人手ラベル付きデータがある場合に、閾値調整や事後補正でシステム誤り率の推定バイアスを減らせるかを検討している。

## 結果

上位の GPT-4 Turbo と Bespoke-7B は平均 balanced accuracy が近いにもかかわらず、unattributable と判定する例の一致度は低い。両者の IoU は 14 データセット中 5 件で 50% 未満、9 件で 65% 未満であった。balanced accuracy は、TPR と TNR の取り替えを隠す。たとえば ExpertQA では、GPT-4 Turbo と Bespoke-7B が同程度の balanced accuracy を示しても、片方は TPR が高く、もう片方は TNR が高いという逆向きの性質を持つ。生成システム単位の誤り率推定も安定しない。TofuEval-MediaSum では、GPT 系や Bespoke-7B が誤り率を過小評価する一方、MiniCheck-FlanT5-Large と MiniCheck-RoBERTa-Large は過大評価する傾向を示した。応答全体で誤りを集約すると、文単位の小さな誤分類がさらに大きな推定誤差になる。ランキングでも問題があり、少なくとも 6 システムを含む 8 データセットで、GPT-4 Turbo は平均 26%、Bespoke-7B は平均 20% のシステム対について有意差の有無を誤って扱った。偏りの分析では、語句重なりの高い誤った主張を見逃しやすく、語句重なりの低い正しい言い換えを誤って退けやすいことが示された。文書をチャンク化すると、遠く離れた情報を結びつける正しい主張が unattributable と判定されやすくなる。較正実験では、balanced accuracy を最大化する閾値調整よりも、誤り率推定のバイアスを直接小さくする閾値調整のほうが安定して有効であった。

## 具体例

たとえば、ある RAG システムが、自治体の長い報告書を根拠に「同市は 2021 年にバス路線を再編し、その後 2023 年に高齢者向け運賃補助を拡大した」と答えたとする。報告書の前半には 2021 年の路線再編が書かれ、かなり後ろの章には 2023 年の補助拡大が書かれている。期待される AutoAIS 評価器の出力は、この一文が根拠文書全体によって支持されるという判定である。ところが、文書を 500 トークン程度のチャンクに分けて評価すると、一つのチャンクには路線再編しかなく、別のチャンクには運賃補助しかないという状況が起こる。その場合、評価器はどの単一チャンクにも主張全体の根拠がないと見て、unattributable と判定しやすい。これは生成システムの誤りではなく、評価器側の入力処理による誤りである。別の間違えやすい点は、生成文が報告書の語句をそのまま写していない場合である。「高齢者向け運賃補助を拡大した」が、根拠文書では「シニア割引制度の対象者を追加した」と書かれていれば、内容は対応していても表層の重なりは小さい。語句重なりに強く依存する評価器は、こうした正しい言い換えを疑わしいと判断することがある。反対に、文書から多くの語をコピーしながら一つだけ数値を誤る出力は、表面上よく似ているため見逃される可能性がある。この論文が問題にするのは、まさにこのような評価器の癖である。

Untitled

title: "Verify with Caution: The Pitfalls of Relying on Imperfect Factuality Metrics" source_url: "https://aclanthology.org/2025.findings-acl.1175/" doi: "10.18653/v1/2025.findings-acl.1175" generated_at: "2026-05-11T10:52:26+00:00"

自然言語生成の事実性評価に使われる Attribution to Identified Sources（AutoAIS）評価器を、11 データセット由来の LLM-AGGREFACT 上で再検討した論文である。
GPT-4 Turbo、GPT-3.5 Turbo、Bespoke-Minicheck-7B、MiniCheck-FlanT5-Large、MiniCheck-RoBERTa-Large を比べ、同程度の balanced accuracy でも予測内容や誤り方が大きく異なることを示す。
評価器は言い換えの多い正しい出力や、長い文書の離れた箇所を結びつける正しい出力を不利に扱うことがあり、著者らは対象領域ごとの人手検証と較正を求めている。

論文の面白いところ

この論文は、新しい事実性評価器を提案するのではなく、評価器を使う側の前提を調べ直す。近年は大規模言語モデル（Large Language Model, LLM）を評価者として用いることが増え、要約、検索拡張生成（Retrieval-Augmented Generation, RAG）、質問応答などで、人手評価の代替として期待されている。本論文は、その期待がどの程度危ういかを、既存評価器の比較から示す。特に扱うのは、ある主張が与えられた根拠文書に十分支えられているかを判定する AutoAIS である。平均の balanced accuracy だけを見ると、上位の評価器は似た性能に見える。しかし、実際にどの例を「根拠なし」と判定するか、また生成システムごとの誤り率をどう推定するかは、評価器ごとに大きく違う。これは、評価器を研究開発の物差しとして使う場合に小さくない問題である。ある新手法が「幻覚を減らした」と見えるかどうかが、選んだ評価器に依存し得るためである。本論文の価値は、評価指標の点数そのものではなく、その点数がどのような誤差を隠しているかを読ませる点にある。

問題設定

対象となる問題は、文書 d と主張 c が与えられたとき、c の全情報が d によって支持されるかを判定することである。支持される場合を attributable、支持されない場合を unattributable とする。多くの自然言語生成システムでは、生成文を文単位の主張として分け、それぞれを根拠文書と照合して事実性を測る。この判定器が AutoAIS 評価器であり、研究ではしばしば人手アノテーションの代わりに使われる。著者らは、LLM-AGGREFACT に含まれるデータを用いて、要約、RAG、質問応答、Wikipedia 検証、Data-to-Text などをまたいで評価器を調べる。元の RAGTruth は四つの部分集合に分け、性質の違うタスクが混ざらないようにしている。その結果、分析対象は 14 個のデータセット相当になる。評価対象は、API ベースの GPT-4 Turbo と GPT-3.5 Turbo、および MiniCheck 系の三つのオープン重みモデルである。さらに、長い根拠文書を小さなチャンクに分けた場合の影響を見るため、Bespoke-7B に 500 トークンのチャンク制限を課した条件も調べる。

提案手法

著者らの方法は、評価器の平均点を出すだけではなく、下流利用で問題になる観点を分けて観察するものである。第一に、評価器同士が同じ例を同じように誤りとみなすかを、unattributable と予測された集合の Intersection-over-Union（IoU）で測る。第二に、balanced accuracy を真陽性率（True Positive Rate, TPR）と真陰性率（True Negative Rate, TNR）に分解し、同じ総合点の背後にある誤り方を調べる。第三に、生成システム単位で、人手ラベルに基づく誤り率と評価器が推定した誤り率の差を測る。これにより、評価器がシステムの幻覚率を過大評価するのか、過小評価するのかが分かる。第四に、システム間ランキングが人手ラベルによる順位と一致するかを調べる。第五に、評価器の偏りとして、主張と文書の表層的な語句重なりを ROUGE-2 precision で測り、重なりの大小が判定に与える影響を見る。長文処理については、文書全体で見た語句重なりと、各チャンクで最大になる語句重なりとの差を R2-diff として定義し、チャンク化で検証不能になりやすい例を取り出す。最後に、少量の人手ラベル付きデータがある場合に、閾値調整や事後補正でシステム誤り率の推定バイアスを減らせるかを検討している。

結果

上位の GPT-4 Turbo と Bespoke-7B は平均 balanced accuracy が近いにもかかわらず、unattributable と判定する例の一致度は低い。両者の IoU は 14 データセット中 5 件で 50% 未満、9 件で 65% 未満であった。balanced accuracy は、TPR と TNR の取り替えを隠す。たとえば ExpertQA では、GPT-4 Turbo と Bespoke-7B が同程度の balanced accuracy を示しても、片方は TPR が高く、もう片方は TNR が高いという逆向きの性質を持つ。生成システム単位の誤り率推定も安定しない。TofuEval-MediaSum では、GPT 系や Bespoke-7B が誤り率を過小評価する一方、MiniCheck-FlanT5-Large と MiniCheck-RoBERTa-Large は過大評価する傾向を示した。応答全体で誤りを集約すると、文単位の小さな誤分類がさらに大きな推定誤差になる。ランキングでも問題があり、少なくとも 6 システムを含む 8 データセットで、GPT-4 Turbo は平均 26%、Bespoke-7B は平均 20% のシステム対について有意差の有無を誤って扱った。偏りの分析では、語句重なりの高い誤った主張を見逃しやすく、語句重なりの低い正しい言い換えを誤って退けやすいことが示された。文書をチャンク化すると、遠く離れた情報を結びつける正しい主張が unattributable と判定されやすくなる。較正実験では、balanced accuracy を最大化する閾値調整よりも、誤り率推定のバイアスを直接小さくする閾値調整のほうが安定して有効であった。

具体例

たとえば、ある RAG システムが、自治体の長い報告書を根拠に「同市は 2021 年にバス路線を再編し、その後 2023 年に高齢者向け運賃補助を拡大した」と答えたとする。報告書の前半には 2021 年の路線再編が書かれ、かなり後ろの章には 2023 年の補助拡大が書かれている。期待される AutoAIS 評価器の出力は、この一文が根拠文書全体によって支持されるという判定である。ところが、文書を 500 トークン程度のチャンクに分けて評価すると、一つのチャンクには路線再編しかなく、別のチャンクには運賃補助しかないという状況が起こる。その場合、評価器はどの単一チャンクにも主張全体の根拠がないと見て、unattributable と判定しやすい。これは生成システムの誤りではなく、評価器側の入力処理による誤りである。別の間違えやすい点は、生成文が報告書の語句をそのまま写していない場合である。「高齢者向け運賃補助を拡大した」が、根拠文書では「シニア割引制度の対象者を追加した」と書かれていれば、内容は対応していても表層の重なりは小さい。語句重なりに強く依存する評価器は、こうした正しい言い換えを疑わしいと判断することがある。反対に、文書から多くの語をコピーしながら一つだけ数値を誤る出力は、表面上よく似ているため見逃される可能性がある。この論文が問題にするのは、まさにこのような評価器の癖である。