Untitled

生成日:

Untitled

Evaluating Robustness of LLMs to Typographical Noise in Yorùbá QA

title: Evaluating Robustness of LLMs to Typographical Noise in Yorùbá QA
source_url: https://aclanthology.org/2025.africanlp-1.29/
doi: 10.18653/v1/2025.africanlp-1.29
generated_at: 2026-05-11T04:47:01Z

論文の面白いところ

この論文は、低資源言語における LLM の弱さを、専門的な推論課題ではなく、利用者が日常的に起こす打鍵誤りから見る。Yorùbá は声調とダイアクリティカルマークが意味を左右する言語であり、文字の小さな乱れが英語より深刻な意味のずれを生みやすい。たとえば、論文は Ògún、ogun、ogún のように、表記の差が神格、戦争、二十を分ける例を挙げる。この性質は、チャット画面での質問応答に直接関わる。現実の利用者は、必ずしも正しいキーボード設定で、正しい声調記号を入れて質問するわけではない。著者らは、モデルが流暢な文を返し続ける一方で、質問の理解や答えの正確性を失う点を分けて測っている。ここが実用上重要である。表面上きれいな Yorùbá の返答が出ても、それが質問を理解した証拠にはならない。英語入力では崩れ方が比較的ゆるやかであるため、同じ多言語モデルでも言語ごとに頑健性を測る必要があることが分かる。

問題設定

対象は、Yorùbá で書かれた質問に対し、LLM が短い答えを返す質問応答である。チャット型の生成 AI では、入力文に綴りの誤り、余分な文字、打ち間違い、記号の混入がしばしば含まれる。英語ではこの問題に関する研究が多いが、Yorùbá のような低資源かつ声調に敏感な言語では検証が少ない。Yorùbá では、ダイアクリティカルマークの欠落や置換により、単語の意味が変わることがある。電子的な文章では、キーボードの制約や習慣のために、これらの記号が省かれることも多い。したがって、モデルが正しい表記の入力に答えられるだけでは十分でない。少し壊れた入力を受けたとき、同じ意味を保って答えられるかが問題になる。論文は、Yorùbá の文化や一般知識に関する 50 件の質問を起点とし、人工的に誤りを入れた入力でこの問題を測定する。

提案手法

著者らは、実際の打鍵誤りを近似するために、確率的なノイズ注入法を用いる。清書された質問文を文字列として扱い、文字数 N に対して誤り率 p を定め、⌊p×N⌋ 個の位置を選んで変更する。誤り率は 10%、20%、30%、40% である。誤りの種類は、余分な文字を入れる挿入、近いキーの文字に置き換える置換、隣り合う文字を入れ替える転置、複数の変換と leetspeak 的な記号置換を混ぜるランダム誤りである。各質問について、4 種の誤り、4 段階の誤り率、各 3 種の変種を作る。これにより、50 件の元質問から 2,400 件の noisy 入力が得られる。評価対象のモデルは GPT-4 Omni、Google Gemini 2.0 Flash、Claude 3.7 Sonnet である。出力は最大 25 語に制限され、温度は 0 に設定される。評価では、清書入力への応答を基準にし、noisy 入力への応答がどれだけ意味を保つかを比較する。指標には多言語 BERTScore と、Gemini 2.0 Flash を評価者とする LLM-as-a-Judge が使われる。後者は流暢さ、理解、正確性を 1 から 5 で採点し、回答拒否や理解不能の応答も数える。

結果

結果は、誤り率が 20% を超えると理解と正確性が急に落ちることを示す。Gemini 2.0 Flash は、10% ノイズで流暢さ 4.9、理解 4.9、正確性 4.8 を示したが、40% では理解 2.3、正確性 2.2 まで下がった。Claude 3.7 Sonnet は 10% で理解 4.9、正確性 4.8 であったが、40% では理解 2.1、正確性 2.0 になった。GPT-4o も 10% では理解 4.8、正確性 4.7 であったが、40% では理解 2.2、正確性 1.9 に落ちた。BERTScore の F1 も全モデルで下がり、GPT-4o は 85.9 から 73.4、Gemini は 82.3 から 73.0、Claude は 84.0 から 73.0 へ低下した。流暢さは比較的保たれるため、誤った理解でも整った文章が出る点に注意が要る。回答拒否率も上がり、40% ノイズでは Gemini が 59.1%、GPT-4o が 38.1%、Claude が 35.0% であった。誤りの種類では、置換誤りが最も強く性能を下げ、挿入誤りの影響は比較的小さかった。英語訳した質問に同じ処理を加えた場合は、理解と正確性の低下がより緩やかであった。著者らは、Yorùbá 専用の noisy QA ベンチマークと、ノイズを意識した学習または評価の必要を結論として述べる。

具体例

たとえば、利用者が Yorùbá で「Kíni itumọ́ ìwà ọmọlúàbí?」と尋ねる場面を考える。これは、おおよそ「ìwà ọmọlúàbí とは何を意味するか」と尋ねる質問であり、期待される答えは、Yorùbá の文化における礼儀、誠実さ、年長者への敬意、穏やかなふるまいなどを説明する短い文である。清書された入力なら、モデルはこの文化的語を認識し、正しい説明を返しやすい。ところが、利用者が急いで入力し、「Kíní itump iws ọmilaubi」のように、置換や転置を含む文を送ったとする。この場合、手法は元の質問に一定の確率で文字誤りを加え、モデルにそのまま答えさせる。期待される処理は、壊れた語形の背後にある「itumọ́」「ìwà」「ọmọlúàbí」を推測し、清書入力と同じ意味の答えを返すことである。失敗しやすい点は、モデルが未知語と判断して「質問が分からない」と返すこと、または別の語として解釈して、見当違いの説明を流暢に書くことである。この論文で測っているのは、単に返答が自然な Yorùbá かどうかではない。壊れた入力から、もとの質問意図をどれだけ保てるかである。