Did Translation Models Get More Robust Without Anyone Even Noticing?

生成日: 2026-05-24 02:20

# Did Translation Models Get More Robust Without Anyone Even Noticing?

- ニューラル機械翻訳（MT）は、綴り誤りや略記を含む入力に弱いとされてきた。本論文は、この見方を近年の多言語 MT と大規模言語モデル（LLM）で検証し直す。
- FLORES、MTNT、MultiLexNorm を用いた実験では、NLLB、TowerInstruct、GPT-3.5 などの新しいモデルは、従来の OPUS-MT より文字ノイズに強い傾向を示した。
- 小型の従来型モデルでも、ノイズ付きデータによるファインチューニングや入力文の訂正パイプラインにより、合成ノイズへの耐性を大きく改善できる。

## Abstract（日本語訳）

ニューラル機械翻訳（MT）モデルは多様な設定で高い性能を示すが、綴り誤り、略語、その他の表記上の問題といった「ノイズ」のある入力にきわめて敏感であると広く考えられている。本論文では、近年の多言語 MT モデルと、機械翻訳に適用された大規模言語モデル（LLM）を踏まえて、この知見を再検討する。やや意外なことに、制御された実験を通じて、これらのモデルは、クリーンなデータで同程度の性能を示す場合であっても、以前のモデルより多くの種類のノイズに対してはるかに頑健であることを示す。これは注目に値する。なぜなら、LLM は過去のモデルより多くのパラメータと複雑な学習過程を持つにもかかわらず、本論文で扱うオープンなモデルはいずれも、頑健性を高めるために特別に設計された手法を用いていないからである。次に、同様の傾向がソーシャルメディア翻訳の実験にも当てはまること、すなわち LLM はソーシャルメディア上のテキストに対してより頑健であることを示す。さらに、入力文の訂正手法がノイズの影響を緩和できる条件について分析する。総じて、本論文は多くの種類のノイズに対する頑健性が向上していることを示す。

## 論文の面白いところ

この論文の中心は、機械翻訳の「常識」がいつの間にか古くなっていたのではないか、という観察にある。従来のニューラル機械翻訳では、入力側の単語に 1 文字の誤りが入るだけで翻訳品質が大きく落ちることが知られていた。そこで、文字レベルのモデル、バイトレベルのモデル、合成ノイズを使った学習など、多くの頑健化手法が提案されてきた。本論文は、そうした専用手法を入れていない近年の大きなモデルが、すでにかなりの頑健性を持つことを実験で示す。

面白いのは、単に「モデルが大きいほど強い」とは言い切っていない点である。NLLB の複数サイズや M2M-100 との比較、同じ OPUS 系データで学習した decoder-only モデルの分析から、頑健性はサイズやアーキテクチャだけでは説明しにくいと述べている。むしろ、学習データの幅、トークナイザのふるまい、ソーシャルメディアのような非標準的な表記をどれだけ見ているかが関わる。文字ノイズに対する強さは、翻訳品質の本体というより、モデルが入力表記の揺れをどのように吸収するかの問題として扱われている。

また、論文は実用上の含意を急がない。合成ノイズでは入力訂正やファインチューニングがよく効く一方、MTNT のような実際のソーシャルメディア文では、訂正を常にかけるとかえって性能が落ちる場合がある。これは、実運用で「まず正規化してから翻訳する」と単純に決める危うさを示す。訂正すべき文と、そのまま翻訳すべき文を見分けるルーティングが重要になる、という結論は控えめだが実務的である。

## 問題設定

本論文が扱う問題は、翻訳モデルが入力文の表記ノイズにどれほど耐えられるかである。ここでいうノイズは、隣接文字の入れ替え、文字の重複、文字の脱落、キーボード上で隣のキーを押したことによる置換などである。たとえば “translation” が “trasnlation” や “translatioon” になるような誤りが対象となる。従来のサブワード単位の翻訳モデルでは、この種の誤りがトークン分割を大きく変え、入力表現を不安定にすることがあった。

実験では、まず FLORES-200 の開発テストセットに人工的な文字ノイズを加え、ノイズ率を 0.1 から 1.0 まで変化させる。対象言語は英語、ドイツ語、フランス語、韓国語、ポルトガル語で、英語への翻訳と英語からの翻訳の双方を調べる。モデルには、言語対ごとの OPUS-MT、202 言語を扱う NLLB、翻訳向け instruction-tuned LLM である TowerInstruct、GPT-3.5 を用いる。評価は主に COMET に基づき、ノイズ率に応じてどれだけスコアが下がるかを回帰直線の傾きとして表す。この値を論文では COMET-slope と呼び、ゼロに近いほど頑健であると解釈する。

さらに、合成ノイズだけでなく、自然に表記が揺れるソーシャルメディア文も扱う。MTNT では Reddit 投稿と専門翻訳を用い、MultiLexNorm ではノイズのある投稿文と人手で正規化された文の対を用いる。後者には参照翻訳がないため、論文は参照なし評価を使い、ノイズ文からの翻訳と正規化文からの翻訳の差を見る。これにより、単なるドメイン適応ではなく、入力表記の揺れが翻訳に与える影響を分けて考えようとしている。

## 提案手法

本論文は新しい翻訳モデルを提案するというより、頑健性を測る実験設計と、ノイズ緩和策の比較を提示する。基本的な測定では、入力文の一定割合の語に対して、swap、drop、dupe、key の 4 種類の文字摂動を加える。各ノイズ率で翻訳し、クリーンな入力での COMET からどれだけ低下したかを求める。ノイズ率と品質低下の関係に線形回帰を当て、その傾きを COMET-slope としてまとめる。これにより、ある一点のスコアではなく、ノイズが増えるにつれてどの程度なだらかに劣化するかを比較できる。

自然ノイズについては、MTNT と MultiLexNorm を補完的に使う。MTNT は参照翻訳があるため通常の COMET で測れるが、クリーンな入力文がないため、ノイズだけの効果を切り出しにくい。MultiLexNorm は参照翻訳を持たないが、ノイズ文と正規化文の対を持つ。そこで、ノイズ文からの翻訳と正規化文からの翻訳を比較する faux-BLEU、faux-COMET、および COMETKiwi に基づく ΔQE を使う。

ノイズ緩和策としては二つを比較する。一つは、ノイズを加えた入力文とクリーンな目標文の対で OPUS をファインチューニングする方法である。もう一つは、ByT5-Small を使って入力文を先に訂正し、その後に翻訳モデルへ渡す source correction パイプラインである。前者は翻訳モデル自体がノイズ込みの翻訳を学ぶが、大きなモデルや閉じたモデルでは使いにくい。後者は任意の翻訳モデルに前処理として接続できるが、訂正器が不要な変更や誤った変更を入れるおそれがある。

## 結果

FLORES に合成ノイズを加えた実験では、OPUS-MT はクリーンな入力では他モデルと大きく離れていないにもかかわらず、ノイズを入れると大きく劣化した。たとえば英語からポルトガル語への翻訳では、OPUS の COMET-slope は swap で -72.97、drop で -69.66、key で -75.81 と急である。これに対して GPT-3.5 は同じ設定でそれぞれ -3.76、-6.63、-7.78 にとどまり、ノイズ率が上がっても低下が小さい。NLLB と TowerInstruct はおおむね両者の中間に位置する。

ソーシャルメディア翻訳でも、大きなモデルの優位は確認された。MTNT では、OPUS を MTNT でファインチューニングした r/OPUS は元の OPUS より改善したが、TowerInstruct や GPT-3.5 との差は埋まらなかった。MultiLexNorm では、ΔQE の観点で GPT-3.5 が全言語対で最も小さい劣化を示した。TowerInstruct も faux-COMET で英語からドイツ語、英語からスペイン語への翻訳に強く、近年の LLM 系翻訳モデルが表記揺れに比較的強いことが示された。

緩和策の実験では、合成ノイズに対してはファインチューニングと source correction のどちらも大きな効果を示した。英語からポルトガル語への OPUS では、ファインチューニング後の COMET-slope が swap で -2.14、dupe で -0.87 まで改善し、GPT-3.5 より平坦な場合もあった。source correction も同じく大きく改善したが、drop には比較的弱く、削除された文字を文脈から完全に復元する難しさが残る。MTNT では、訂正を常に適用すると平均性能は落ちたが、個々の文では 21.8% が改善し、46.1% は悪化しなかった。論文は、文ごとに訂正を適用するか判断する仕組みを今後の方向として示している。

## 具体例

たとえば、英語からポルトガル語へ翻訳する場面で、入力として “I recieved teh package yesterday.” のような文が来たとする。ここには “received” の綴り誤りと “the” の文字入れ替えが含まれる。従来のサブワード翻訳モデルでは、これらの誤りにより “recieved” や “teh” が学習時に見慣れない分割になり、文全体の意味は明らかでも翻訳が崩れることがある。合成ノイズ実験の OPUS-MT は、このような摂動が増えるほど COMET が急に低下するモデルとして観察された。

一方、GPT-3.5 や TowerInstruct のような大きなモデルは、この文を “I received the package yesterday.” に近いものとして扱い、ポルトガル語で「私は昨日その荷物を受け取った」に相当する訳へ進みやすい。source correction パイプラインを使う場合は、翻訳の前に ByT5-Small が入力文を訂正し、それを通常の翻訳モデルへ渡す。期待される出力は、誤字そのものの再現ではなく、元の意味を保った自然な訳である。ただし、ソーシャルメディア文では事情が少し異なる。たとえば俗語、固有名、意図的な表記崩しを訂正器が標準形へ変えてしまうと、翻訳に必要な語感や意味を落とすことがある。このため、すべての文を機械的に訂正するのではなく、訂正が助けになる文を選ぶ必要がある。

Did Translation Models Get More Robust Without Anyone Even Noticing?

ニューラル機械翻訳（MT）は、綴り誤りや略記を含む入力に弱いとされてきた。本論文は、この見方を近年の多言語 MT と大規模言語モデル（LLM）で検証し直す。
FLORES、MTNT、MultiLexNorm を用いた実験では、NLLB、TowerInstruct、GPT-3.5 などの新しいモデルは、従来の OPUS-MT より文字ノイズに強い傾向を示した。
小型の従来型モデルでも、ノイズ付きデータによるファインチューニングや入力文の訂正パイプラインにより、合成ノイズへの耐性を大きく改善できる。

Abstract（日本語訳）

ニューラル機械翻訳（MT）モデルは多様な設定で高い性能を示すが、綴り誤り、略語、その他の表記上の問題といった「ノイズ」のある入力にきわめて敏感であると広く考えられている。本論文では、近年の多言語 MT モデルと、機械翻訳に適用された大規模言語モデル（LLM）を踏まえて、この知見を再検討する。やや意外なことに、制御された実験を通じて、これらのモデルは、クリーンなデータで同程度の性能を示す場合であっても、以前のモデルより多くの種類のノイズに対してはるかに頑健であることを示す。これは注目に値する。なぜなら、LLM は過去のモデルより多くのパラメータと複雑な学習過程を持つにもかかわらず、本論文で扱うオープンなモデルはいずれも、頑健性を高めるために特別に設計された手法を用いていないからである。次に、同様の傾向がソーシャルメディア翻訳の実験にも当てはまること、すなわち LLM はソーシャルメディア上のテキストに対してより頑健であることを示す。さらに、入力文の訂正手法がノイズの影響を緩和できる条件について分析する。総じて、本論文は多くの種類のノイズに対する頑健性が向上していることを示す。

論文の面白いところ

この論文の中心は、機械翻訳の「常識」がいつの間にか古くなっていたのではないか、という観察にある。従来のニューラル機械翻訳では、入力側の単語に 1 文字の誤りが入るだけで翻訳品質が大きく落ちることが知られていた。そこで、文字レベルのモデル、バイトレベルのモデル、合成ノイズを使った学習など、多くの頑健化手法が提案されてきた。本論文は、そうした専用手法を入れていない近年の大きなモデルが、すでにかなりの頑健性を持つことを実験で示す。

面白いのは、単に「モデルが大きいほど強い」とは言い切っていない点である。NLLB の複数サイズや M2M-100 との比較、同じ OPUS 系データで学習した decoder-only モデルの分析から、頑健性はサイズやアーキテクチャだけでは説明しにくいと述べている。むしろ、学習データの幅、トークナイザのふるまい、ソーシャルメディアのような非標準的な表記をどれだけ見ているかが関わる。文字ノイズに対する強さは、翻訳品質の本体というより、モデルが入力表記の揺れをどのように吸収するかの問題として扱われている。

また、論文は実用上の含意を急がない。合成ノイズでは入力訂正やファインチューニングがよく効く一方、MTNT のような実際のソーシャルメディア文では、訂正を常にかけるとかえって性能が落ちる場合がある。これは、実運用で「まず正規化してから翻訳する」と単純に決める危うさを示す。訂正すべき文と、そのまま翻訳すべき文を見分けるルーティングが重要になる、という結論は控えめだが実務的である。

問題設定

本論文が扱う問題は、翻訳モデルが入力文の表記ノイズにどれほど耐えられるかである。ここでいうノイズは、隣接文字の入れ替え、文字の重複、文字の脱落、キーボード上で隣のキーを押したことによる置換などである。たとえば “translation” が “trasnlation” や “translatioon” になるような誤りが対象となる。従来のサブワード単位の翻訳モデルでは、この種の誤りがトークン分割を大きく変え、入力表現を不安定にすることがあった。

実験では、まず FLORES-200 の開発テストセットに人工的な文字ノイズを加え、ノイズ率を 0.1 から 1.0 まで変化させる。対象言語は英語、ドイツ語、フランス語、韓国語、ポルトガル語で、英語への翻訳と英語からの翻訳の双方を調べる。モデルには、言語対ごとの OPUS-MT、202 言語を扱う NLLB、翻訳向け instruction-tuned LLM である TowerInstruct、GPT-3.5 を用いる。評価は主に COMET に基づき、ノイズ率に応じてどれだけスコアが下がるかを回帰直線の傾きとして表す。この値を論文では COMET-slope と呼び、ゼロに近いほど頑健であると解釈する。

さらに、合成ノイズだけでなく、自然に表記が揺れるソーシャルメディア文も扱う。MTNT では Reddit 投稿と専門翻訳を用い、MultiLexNorm ではノイズのある投稿文と人手で正規化された文の対を用いる。後者には参照翻訳がないため、論文は参照なし評価を使い、ノイズ文からの翻訳と正規化文からの翻訳の差を見る。これにより、単なるドメイン適応ではなく、入力表記の揺れが翻訳に与える影響を分けて考えようとしている。

提案手法

本論文は新しい翻訳モデルを提案するというより、頑健性を測る実験設計と、ノイズ緩和策の比較を提示する。基本的な測定では、入力文の一定割合の語に対して、swap、drop、dupe、key の 4 種類の文字摂動を加える。各ノイズ率で翻訳し、クリーンな入力での COMET からどれだけ低下したかを求める。ノイズ率と品質低下の関係に線形回帰を当て、その傾きを COMET-slope としてまとめる。これにより、ある一点のスコアではなく、ノイズが増えるにつれてどの程度なだらかに劣化するかを比較できる。

自然ノイズについては、MTNT と MultiLexNorm を補完的に使う。MTNT は参照翻訳があるため通常の COMET で測れるが、クリーンな入力文がないため、ノイズだけの効果を切り出しにくい。MultiLexNorm は参照翻訳を持たないが、ノイズ文と正規化文の対を持つ。そこで、ノイズ文からの翻訳と正規化文からの翻訳を比較する faux-BLEU、faux-COMET、および COMETKiwi に基づく ΔQE を使う。

ノイズ緩和策としては二つを比較する。一つは、ノイズを加えた入力文とクリーンな目標文の対で OPUS をファインチューニングする方法である。もう一つは、ByT5-Small を使って入力文を先に訂正し、その後に翻訳モデルへ渡す source correction パイプラインである。前者は翻訳モデル自体がノイズ込みの翻訳を学ぶが、大きなモデルや閉じたモデルでは使いにくい。後者は任意の翻訳モデルに前処理として接続できるが、訂正器が不要な変更や誤った変更を入れるおそれがある。

結果

FLORES に合成ノイズを加えた実験では、OPUS-MT はクリーンな入力では他モデルと大きく離れていないにもかかわらず、ノイズを入れると大きく劣化した。たとえば英語からポルトガル語への翻訳では、OPUS の COMET-slope は swap で -72.97、drop で -69.66、key で -75.81 と急である。これに対して GPT-3.5 は同じ設定でそれぞれ -3.76、-6.63、-7.78 にとどまり、ノイズ率が上がっても低下が小さい。NLLB と TowerInstruct はおおむね両者の中間に位置する。

ソーシャルメディア翻訳でも、大きなモデルの優位は確認された。MTNT では、OPUS を MTNT でファインチューニングした r/OPUS は元の OPUS より改善したが、TowerInstruct や GPT-3.5 との差は埋まらなかった。MultiLexNorm では、ΔQE の観点で GPT-3.5 が全言語対で最も小さい劣化を示した。TowerInstruct も faux-COMET で英語からドイツ語、英語からスペイン語への翻訳に強く、近年の LLM 系翻訳モデルが表記揺れに比較的強いことが示された。

緩和策の実験では、合成ノイズに対してはファインチューニングと source correction のどちらも大きな効果を示した。英語からポルトガル語への OPUS では、ファインチューニング後の COMET-slope が swap で -2.14、dupe で -0.87 まで改善し、GPT-3.5 より平坦な場合もあった。source correction も同じく大きく改善したが、drop には比較的弱く、削除された文字を文脈から完全に復元する難しさが残る。MTNT では、訂正を常に適用すると平均性能は落ちたが、個々の文では 21.8% が改善し、46.1% は悪化しなかった。論文は、文ごとに訂正を適用するか判断する仕組みを今後の方向として示している。

具体例

たとえば、英語からポルトガル語へ翻訳する場面で、入力として “I recieved teh package yesterday.” のような文が来たとする。ここには “received” の綴り誤りと “the” の文字入れ替えが含まれる。従来のサブワード翻訳モデルでは、これらの誤りにより “recieved” や “teh” が学習時に見慣れない分割になり、文全体の意味は明らかでも翻訳が崩れることがある。合成ノイズ実験の OPUS-MT は、このような摂動が増えるほど COMET が急に低下するモデルとして観察された。

一方、GPT-3.5 や TowerInstruct のような大きなモデルは、この文を “I received the package yesterday.” に近いものとして扱い、ポルトガル語で「私は昨日その荷物を受け取った」に相当する訳へ進みやすい。source correction パイプラインを使う場合は、翻訳の前に ByT5-Small が入力文を訂正し、それを通常の翻訳モデルへ渡す。期待される出力は、誤字そのものの再現ではなく、元の意味を保った自然な訳である。ただし、ソーシャルメディア文では事情が少し異なる。たとえば俗語、固有名、意図的な表記崩しを訂正器が標準形へ変えてしまうと、翻訳に必要な語感や意味を落とすことがある。このため、すべての文を機械的に訂正するのではなく、訂正が助けになる文を選ぶ必要がある。