Untitled

生成日: 2026-05-24 02:20

# Untitled
# assessing dialect fairness and robustness of large language models in reasoning tasks

- title: Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks
- source_url: https://aclanthology.org/2025.acl-long.317/
- doi: 10.18653/v1/2025.acl-long.317
- generated_at: 2026-05-09T10:13:43+00:00

- 大規模言語モデルが、標準化英語とアフリカ系アメリカ人英語（African American Vernacular English, AAVE）で同じ推論問題をどの程度同じように解けるかを調べた研究である。
- 著者らは、7 種類の既存ベンチマークから 1,216 件の問題を取り、AAVE 話者による書き換えと検証を経て ReDial（Reasoning with Dialect Queries）を作成した。
- GPT、Claude、Llama、Mistral、Phi 系列の多くで、AAVE 版の入力に対する正答率が標準化英語版より下がり、単なる誤字や表層的な方言変換では説明しきれない差が観察された。

## 論文の面白いところ

この論文の要点は、方言を「雑音」としてではなく、同じ意味を持つ自然な入力変種として扱った点にある。既存の方言評価は、感情分析やヘイトスピーチ検出などの分類課題に偏りがちであった。本研究は、コード生成、数学、論理、計画を含む推論課題に対象を移している。これは、対話型の大規模言語モデルが実際に使われる場面に近い。著者らは、単純な規則変換や大規模言語モデルによる翻訳に頼らず、AAVE 話者を雇って問題文を書き換えた。さらに、AAVE 話者による自然さの確認と、非 AAVE 話者および GPT-4o を補助的に用いた意味保持の確認を組み合わせている。ただし、GPT-4o が不適切と判定した事例も、人手で確認されるまで除外しない設計にしている。この手順により、評価対象である大規模言語モデルの偏りを、データ作成の段階でそのまま混ぜ込む危険を抑えている。

## 問題設定

問いは単純である。同じ推論問題を標準化英語で書いた場合と AAVE で書いた場合に、大規模言語モデルの答えは同じ程度に正しいのか。著者らは、この性質を頑健性と公平性の問題として定式化する。頑健性とは、意味が保たれた入力の違いに対して性能が大きく変わらないことである。公平性とは、ある方言の話者が、標準化された言語形式を使う話者より低い品質のサービスを受けないことである。対象となる推論は、HumanEval と MBPP に基づくアルゴリズム課題、GSM8K と SVAMP に基づく数学課題、LogicBench と Folio に基づく論理課題、AsyncHow に基づく複合的な計画推論である。各問題には標準化英語版と AAVE 版があり、正解ラベルや期待される出力は同一に保たれる。評価は、コードなら単体テストを通るか、他の課題なら最終回答が正しいかを pass rate としてまとめる。

## 提案手法

本研究の中心的な成果物は ReDial である。ReDial は、標準化英語と AAVE の並列プロンプト 1,216 件から成る。内訳は、アルゴリズム 314 件、論理 362 件、数学 300 件、複合推論 240 件である。データ作成では、13 名の AAVE 話者が既存ベンチマークの問題を AAVE に書き換えた。コード課題では、プログラミングの意味を壊さないため、計算機科学の背景を持つ注釈者も用いられた。検証段階では、別の AAVE 話者が自然さを確認し、非 AAVE 話者が数値、論理条件、関数名などの重要情報が保たれているかを確認した。GPT-4o は健全性確認の補助として使われたが、その判断だけで事例を捨てることはしない。こうして、方言の自然な言い回しと、元の問題の意味の保持を両立させようとしている。

## 結果

評価対象は、GPT-o1、GPT-4o、GPT-4、GPT-3.5-turbo、Claude-3.5-Sonnet、Llama、Mistral、Mixtral、Phi 系列である。直接プロンプトと、モデルによっては Chain of Thought（CoT）プロンプトの両方が試された。ほぼすべてのモデルで、AAVE 版の入力に対する成績は標準化英語版より下がった。直接プロンプトの平均では、全課題を通じて標準化英語の pass rate が 0.597、AAVE が 0.529 であった。課題別にも低下は見られ、アルゴリズム、数学、論理、複合推論のすべてで統計的に有意な差が報告されている。GPT-4o の直接プロンプトでは、全体の pass rate が 0.832 から 0.716 に下がった。CoT は一部の差を小さくしたが、差を消すことはできなかった。AAVE をいったん標準化英語に言い換えてから答えるよう指示する方法も試されたが、標準化英語の素の入力と同じ水準には届かず、出力トークン数も増えた。

## 具体例

たとえば、標準化英語では「John は修学旅行のために資金を集めており、学校は旅行費用の半分を負担する。旅行費用は 300 ドルで、John は 50 ドルを持っている。あといくら足りないか」と問う数学問題がある。ReDial では、これと同じ内容が AAVE の自然な文体に書き換えられる。モデルは、学校が 300 ドルの半分、すなわち 150 ドルを負担すると読み取り、John が自分で用意すべき額も 150 ドルであると計算する必要がある。John はすでに 50 ドルを持っているので、期待される答えは 100 ドルである。誤りやすい点は、方言的な表現を単なるくだけた言い換えとして処理できず、誰がいくら負担するのかを取り違えるところにある。また、答えを指定された形式で包む指示が AAVE の慣用的な表現に置き換わると、モデルが最終回答の形式を見落とすこともある。論文が示すのは、こうした失敗が一つの例外ではなく、複数のモデルと複数の推論課題にまたがって現れるという事実である。

Untitled

assessing dialect fairness and robustness of large language models in reasoning tasks

title: Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks
source_url: https://aclanthology.org/2025.acl-long.317/
doi: 10.18653/v1/2025.acl-long.317
generated_at: 2026-05-09T10:13:43+00:00
大規模言語モデルが、標準化英語とアフリカ系アメリカ人英語（African American Vernacular English, AAVE）で同じ推論問題をどの程度同じように解けるかを調べた研究である。
著者らは、7 種類の既存ベンチマークから 1,216 件の問題を取り、AAVE 話者による書き換えと検証を経て ReDial（Reasoning with Dialect Queries）を作成した。
GPT、Claude、Llama、Mistral、Phi 系列の多くで、AAVE 版の入力に対する正答率が標準化英語版より下がり、単なる誤字や表層的な方言変換では説明しきれない差が観察された。

論文の面白いところ

この論文の要点は、方言を「雑音」としてではなく、同じ意味を持つ自然な入力変種として扱った点にある。既存の方言評価は、感情分析やヘイトスピーチ検出などの分類課題に偏りがちであった。本研究は、コード生成、数学、論理、計画を含む推論課題に対象を移している。これは、対話型の大規模言語モデルが実際に使われる場面に近い。著者らは、単純な規則変換や大規模言語モデルによる翻訳に頼らず、AAVE 話者を雇って問題文を書き換えた。さらに、AAVE 話者による自然さの確認と、非 AAVE 話者および GPT-4o を補助的に用いた意味保持の確認を組み合わせている。ただし、GPT-4o が不適切と判定した事例も、人手で確認されるまで除外しない設計にしている。この手順により、評価対象である大規模言語モデルの偏りを、データ作成の段階でそのまま混ぜ込む危険を抑えている。

問題設定

問いは単純である。同じ推論問題を標準化英語で書いた場合と AAVE で書いた場合に、大規模言語モデルの答えは同じ程度に正しいのか。著者らは、この性質を頑健性と公平性の問題として定式化する。頑健性とは、意味が保たれた入力の違いに対して性能が大きく変わらないことである。公平性とは、ある方言の話者が、標準化された言語形式を使う話者より低い品質のサービスを受けないことである。対象となる推論は、HumanEval と MBPP に基づくアルゴリズム課題、GSM8K と SVAMP に基づく数学課題、LogicBench と Folio に基づく論理課題、AsyncHow に基づく複合的な計画推論である。各問題には標準化英語版と AAVE 版があり、正解ラベルや期待される出力は同一に保たれる。評価は、コードなら単体テストを通るか、他の課題なら最終回答が正しいかを pass rate としてまとめる。

提案手法

本研究の中心的な成果物は ReDial である。ReDial は、標準化英語と AAVE の並列プロンプト 1,216 件から成る。内訳は、アルゴリズム 314 件、論理 362 件、数学 300 件、複合推論 240 件である。データ作成では、13 名の AAVE 話者が既存ベンチマークの問題を AAVE に書き換えた。コード課題では、プログラミングの意味を壊さないため、計算機科学の背景を持つ注釈者も用いられた。検証段階では、別の AAVE 話者が自然さを確認し、非 AAVE 話者が数値、論理条件、関数名などの重要情報が保たれているかを確認した。GPT-4o は健全性確認の補助として使われたが、その判断だけで事例を捨てることはしない。こうして、方言の自然な言い回しと、元の問題の意味の保持を両立させようとしている。

結果

評価対象は、GPT-o1、GPT-4o、GPT-4、GPT-3.5-turbo、Claude-3.5-Sonnet、Llama、Mistral、Mixtral、Phi 系列である。直接プロンプトと、モデルによっては Chain of Thought（CoT）プロンプトの両方が試された。ほぼすべてのモデルで、AAVE 版の入力に対する成績は標準化英語版より下がった。直接プロンプトの平均では、全課題を通じて標準化英語の pass rate が 0.597、AAVE が 0.529 であった。課題別にも低下は見られ、アルゴリズム、数学、論理、複合推論のすべてで統計的に有意な差が報告されている。GPT-4o の直接プロンプトでは、全体の pass rate が 0.832 から 0.716 に下がった。CoT は一部の差を小さくしたが、差を消すことはできなかった。AAVE をいったん標準化英語に言い換えてから答えるよう指示する方法も試されたが、標準化英語の素の入力と同じ水準には届かず、出力トークン数も増えた。

具体例

たとえば、標準化英語では「John は修学旅行のために資金を集めており、学校は旅行費用の半分を負担する。旅行費用は 300 ドルで、John は 50 ドルを持っている。あといくら足りないか」と問う数学問題がある。ReDial では、これと同じ内容が AAVE の自然な文体に書き換えられる。モデルは、学校が 300 ドルの半分、すなわち 150 ドルを負担すると読み取り、John が自分で用意すべき額も 150 ドルであると計算する必要がある。John はすでに 50 ドルを持っているので、期待される答えは 100 ドルである。誤りやすい点は、方言的な表現を単なるくだけた言い換えとして処理できず、誰がいくら負担するのかを取り違えるところにある。また、答えを指定された形式で包む指示が AAVE の慣用的な表現に置き換わると、モデルが最終回答の形式を見落とすこともある。論文が示すのは、こうした失敗が一つの例外ではなく、複数のモデルと複数の推論課題にまたがって現れるという事実である。