Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

生成日: 2026-05-24 02:20

# Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

- LLM は機械翻訳で高い訳出能力を示す一方、語順や句の選び方が原文に引きずられる translationese をなお生じる。
- 本論文は、translationese が単なる推論時のプロンプト問題ではなく、supervised fine-tuning（SFT）に含まれる不自然な参照訳から強く生じることを示す。
- 参照訳を GPT-4 で polish してから SFT する方法と、perplexity による不自然な訓練例の除去により、訳の自然さと COMET-QE による品質評価を改善した。

## Abstract（日本語訳）

大規模言語モデル（LLM）は機械翻訳において顕著な成功を収め、多様な言語で高い性能を示している。しかし、過度に直訳的で不自然な翻訳として特徴づけられる translationese は、LLM ベースの翻訳システムにおいて依然として残る課題である。LLM は自然な発話から成る大規模コーパスで事前学習されているにもかかわらず、translationese による誤りを示し、予期しない不自然な翻訳を生成する。これは supervised fine-tuning（SFT）の過程で導入されるバイアスに由来する。本研究では、LLM が生成した翻訳における translationese の広がりを体系的に評価し、その根が supervised training のどこにあるかを調べる。これらのバイアスを緩和する方法として、正解参照訳の polish と、不自然な訓練インスタンスのフィルタリングを導入する。実験評価により、これらの方法は translationese を大きく減らすとともに翻訳の自然さを改善することが示され、その効果は人手評価と自動評価指標の双方で確認された。本研究の結果は、より流暢で目標言語らしい翻訳を得るためには、LLM の翻訳出力を最適化する際に訓練を意識した調整が必要であることを示している。

## 論文の面白いところ

この論文の中心は、LLM が「自然な文を作れない」のではなく、「翻訳というタスクになると不自然な直訳に寄りやすい」と見ている点にある。事前学習では大量の自然な目標言語文を読んでいるため、LLM には本来、自然な表現を選ぶ能力があるはずである。それでも翻訳プロンプトでは、原文の構造を忠実に写す方向へ傾く。著者らは、この傾きが SFT の参照訳に含まれる translationese から生じると考える。実際、単に「自然に訳せ」とプロンプトで指定するだけでは安定して改善しないが、いったん訳した文を polish させると不自然さは下がる。この差は、LLM の内部能力よりも、タスク形式と訓練データの作り方が出力を左右していることを示す。翻訳品質を adequacy だけでなく、目標言語として普通に読めるかという観点で扱った点も実務に近い。翻訳システムを運用する場面では、意味が合っているだけでは足りず、読み手が翻訳文らしさを感じないことが重要になるからである。

## 問題設定

対象は、LLM による機械翻訳で生じる translationese である。ここでいう translationese は、原文の構造や句を過度に直訳し、目標言語の自然な語順や慣用表現から外れる現象を指す。論文では、文全体の流れが不自然になる sentence-level translationese と、句単位で直訳調になる phrase-level translationese を主に扱う。評価対象は英中翻訳と独英翻訳で、ニュース、科学文書、Wikipedia、Quora などから文書単位の入力を集めている。GPT-3.5、GPT-4、Mistral、ALMA などの翻訳結果に対し、専門翻訳者が不自然な span を注釈した。指標として translationese span ratio（TSR）を用い、文書中のどの程度が translationese と判定されたかを測る。著者らはさらに、ALMA の SFT 訓練データから標本を取り、参照訳そのものに translationese がどれだけ含まれるかを調べた。この設定により、出力の不自然さと訓練データの不自然さを同じ観点で結びつけている。

## 提案手法

提案の第一は、SFT に使う正解参照訳を polish してから訓練する SFT-Polished である。具体的には、既存の翻訳ペアに対して GPT-4 に目標言語として自然な翻訳へ整えるよう依頼し、その整えた参照訳を使って Llama-3.1-8B と Qwen-2.5-7B をファインチューニングする。これは GPT-4 に新しく翻訳させる knowledge distillation とは異なる。原文に対する意味対応を保ちながら、既存参照訳の直訳調だけを弱める処理として設計されている。第二は、不自然な訓練例をフィルタリングする方法である。著者らは Llama-3.1-8B で翻訳文の perplexity を測り、目標言語として読みにくい文ほど perplexity が高くなるという性質を利用する。perplexity の高い参照訳を一部除いてから SFT すれば、モデルが直訳調の出力を学ぶ機会を減らせる。いずれの方法も、推論時の小手先のプロンプト調整ではなく、翻訳モデルを作る段階のデータ品質を扱う点に特徴がある。

## 結果

人手注釈では、直接翻訳プロンプトを用いた LLM の出力に広く translationese が見られた。英中翻訳では平均 45.0%、独英翻訳では平均 51.1% の文書が、TSR 0.2 を超える顕著な translationese を含んだ。GPT-4 でも直訳調は消えず、英中で 43%、独英で 50% の文書に顕著な translationese が見られた。一方、GPT-4 に自分の訳を polish させると、英中では 43% から 25% に下がった。訓練データ側の調査では、ALMA の SFT データにおいて TSR 0.2 を超える例が英中で 40.4%、独英で 34.2% あった。SFT-Polished は自動評価で lexical density、length variance、perplexity を一貫して改善し、perplexity は平均で英中 7.8、独英 7.7 下がった。人手の順位付けでも SFT-Polished が最も自然な翻訳として評価された。COMET-QE でも通常の SFT より良い値を示し、自然さの改善が単なる言い換えにとどまらず、翻訳品質の低下を伴わないことが示された。

## 具体例

たとえば、ドイツ語の商品説明に「warten die VTX-Verstärker mit einer Authentizität auf」という表現があり、アンプの本物らしい音を述べているとする。通常の SFT モデルはこれを “the VTX amplifiers wait with an authenticity” のように訳し得る。単語ごとの対応は見えるが、英語では “wait with an authenticity” とはあまり言わないため、読者には翻訳文らしく響く。SFT-KD のように GPT-4 で直接作った訳を使うと、“offer an authenticity” のように少し自然になる場合があるが、まだ硬さが残る。SFT-Polished では “deliver a level of authenticity” のように、英語の商品説明として通る表現へ寄せる。ここで重要なのは、原文の意味を捨てて自由に書き換えるのではなく、目標言語で普通に使われる述語と名詞の組み合わせを選ぶ点である。英中翻訳でも同じで、“cats suffer night blindness” を直訳して「遭受夜盲症」とするより、「患上夜盲症」とした方が中国語として自然になる。こうした誤りは BLEU のような表層一致だけでは見落とされやすく、実際の利用では読者の負担として現れる。

Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

LLM は機械翻訳で高い訳出能力を示す一方、語順や句の選び方が原文に引きずられる translationese をなお生じる。
本論文は、translationese が単なる推論時のプロンプト問題ではなく、supervised fine-tuning（SFT）に含まれる不自然な参照訳から強く生じることを示す。
参照訳を GPT-4 で polish してから SFT する方法と、perplexity による不自然な訓練例の除去により、訳の自然さと COMET-QE による品質評価を改善した。

Abstract（日本語訳）

大規模言語モデル（LLM）は機械翻訳において顕著な成功を収め、多様な言語で高い性能を示している。しかし、過度に直訳的で不自然な翻訳として特徴づけられる translationese は、LLM ベースの翻訳システムにおいて依然として残る課題である。LLM は自然な発話から成る大規模コーパスで事前学習されているにもかかわらず、translationese による誤りを示し、予期しない不自然な翻訳を生成する。これは supervised fine-tuning（SFT）の過程で導入されるバイアスに由来する。本研究では、LLM が生成した翻訳における translationese の広がりを体系的に評価し、その根が supervised training のどこにあるかを調べる。これらのバイアスを緩和する方法として、正解参照訳の polish と、不自然な訓練インスタンスのフィルタリングを導入する。実験評価により、これらの方法は translationese を大きく減らすとともに翻訳の自然さを改善することが示され、その効果は人手評価と自動評価指標の双方で確認された。本研究の結果は、より流暢で目標言語らしい翻訳を得るためには、LLM の翻訳出力を最適化する際に訓練を意識した調整が必要であることを示している。

論文の面白いところ

この論文の中心は、LLM が「自然な文を作れない」のではなく、「翻訳というタスクになると不自然な直訳に寄りやすい」と見ている点にある。事前学習では大量の自然な目標言語文を読んでいるため、LLM には本来、自然な表現を選ぶ能力があるはずである。それでも翻訳プロンプトでは、原文の構造を忠実に写す方向へ傾く。著者らは、この傾きが SFT の参照訳に含まれる translationese から生じると考える。実際、単に「自然に訳せ」とプロンプトで指定するだけでは安定して改善しないが、いったん訳した文を polish させると不自然さは下がる。この差は、LLM の内部能力よりも、タスク形式と訓練データの作り方が出力を左右していることを示す。翻訳品質を adequacy だけでなく、目標言語として普通に読めるかという観点で扱った点も実務に近い。翻訳システムを運用する場面では、意味が合っているだけでは足りず、読み手が翻訳文らしさを感じないことが重要になるからである。

問題設定

対象は、LLM による機械翻訳で生じる translationese である。ここでいう translationese は、原文の構造や句を過度に直訳し、目標言語の自然な語順や慣用表現から外れる現象を指す。論文では、文全体の流れが不自然になる sentence-level translationese と、句単位で直訳調になる phrase-level translationese を主に扱う。評価対象は英中翻訳と独英翻訳で、ニュース、科学文書、Wikipedia、Quora などから文書単位の入力を集めている。GPT-3.5、GPT-4、Mistral、ALMA などの翻訳結果に対し、専門翻訳者が不自然な span を注釈した。指標として translationese span ratio（TSR）を用い、文書中のどの程度が translationese と判定されたかを測る。著者らはさらに、ALMA の SFT 訓練データから標本を取り、参照訳そのものに translationese がどれだけ含まれるかを調べた。この設定により、出力の不自然さと訓練データの不自然さを同じ観点で結びつけている。

提案手法

提案の第一は、SFT に使う正解参照訳を polish してから訓練する SFT-Polished である。具体的には、既存の翻訳ペアに対して GPT-4 に目標言語として自然な翻訳へ整えるよう依頼し、その整えた参照訳を使って Llama-3.1-8B と Qwen-2.5-7B をファインチューニングする。これは GPT-4 に新しく翻訳させる knowledge distillation とは異なる。原文に対する意味対応を保ちながら、既存参照訳の直訳調だけを弱める処理として設計されている。第二は、不自然な訓練例をフィルタリングする方法である。著者らは Llama-3.1-8B で翻訳文の perplexity を測り、目標言語として読みにくい文ほど perplexity が高くなるという性質を利用する。perplexity の高い参照訳を一部除いてから SFT すれば、モデルが直訳調の出力を学ぶ機会を減らせる。いずれの方法も、推論時の小手先のプロンプト調整ではなく、翻訳モデルを作る段階のデータ品質を扱う点に特徴がある。

結果

人手注釈では、直接翻訳プロンプトを用いた LLM の出力に広く translationese が見られた。英中翻訳では平均 45.0%、独英翻訳では平均 51.1% の文書が、TSR 0.2 を超える顕著な translationese を含んだ。GPT-4 でも直訳調は消えず、英中で 43%、独英で 50% の文書に顕著な translationese が見られた。一方、GPT-4 に自分の訳を polish させると、英中では 43% から 25% に下がった。訓練データ側の調査では、ALMA の SFT データにおいて TSR 0.2 を超える例が英中で 40.4%、独英で 34.2% あった。SFT-Polished は自動評価で lexical density、length variance、perplexity を一貫して改善し、perplexity は平均で英中 7.8、独英 7.7 下がった。人手の順位付けでも SFT-Polished が最も自然な翻訳として評価された。COMET-QE でも通常の SFT より良い値を示し、自然さの改善が単なる言い換えにとどまらず、翻訳品質の低下を伴わないことが示された。

具体例

たとえば、ドイツ語の商品説明に「warten die VTX-Verstärker mit einer Authentizität auf」という表現があり、アンプの本物らしい音を述べているとする。通常の SFT モデルはこれを “the VTX amplifiers wait with an authenticity” のように訳し得る。単語ごとの対応は見えるが、英語では “wait with an authenticity” とはあまり言わないため、読者には翻訳文らしく響く。SFT-KD のように GPT-4 で直接作った訳を使うと、“offer an authenticity” のように少し自然になる場合があるが、まだ硬さが残る。SFT-Polished では “deliver a level of authenticity” のように、英語の商品説明として通る表現へ寄せる。ここで重要なのは、原文の意味を捨てて自由に書き換えるのではなく、目標言語で普通に使われる述語と名詞の組み合わせを選ぶ点である。英中翻訳でも同じで、“cats suffer night blindness” を直訳して「遭受夜盲症」とするより、「患上夜盲症」とした方が中国語として自然になる。こうした誤りは BLEU のような表層一致だけでは見落とされやすく、実際の利用では読者の負担として現れる。