Untitled

生成日: 2026-05-24 02:20

# Untitled
*ACL Anthology paper digest*

*Generating Difficult-to-Translate Texts*  
Vilém Zouhar ほか (MME 2026)  
https://aclanthology.org/2026.mme-main.14/

機械翻訳の評価セットは、最近のモデルには簡単すぎて差が出にくい。そこでこの論文は、翻訳モデルが失敗しやすい入力文を LLM で作る *MT-breaker* を提案している。

やり方はかなり素直。まず seed 文を翻訳モデルにかける。その翻訳結果を LLM に見せて、元の文を少し難しく書き換えさせる。これを最大 10 回くり返し、品質推定スコアが一番悪かった文を「難しい例」として採用する。人間の MT 評価者が、モデルの小さなミスを見つけて、そこを突くように入力をいじっていく作業を自動化した形。

結果として、MT-breaker は zero-shot で難問を生成する方法よりも、翻訳品質スコアを大きく下げられた。特に seed なし版は強力で、かなりモデルを壊せる。ただし自然さや多様性は落ちやすい。seed あり版は難しさでは少し控えめだが、元データに近い多様性と自然さを保ちやすい。このトレードオフがこの論文のいちばん実用的なポイントだと思う。

面白いのは、狙った翻訳モデルだけでなく、他のモデルや他の言語方向にもある程度「難しさ」が移るところ。ただし一番効くのは、やはり生成時に標的にしたモデルと言語方向。複数モデルを同時に標的にする Multi 版は、個別最適ほど尖らない一方で、より一般的な難しさを拾っていそうだった。

人手評価も入れている。英→チェコ語・英→ドイツ語で、Gemini 2.5 とプロ翻訳者の訳を MQM/ESA 系で評価したところ、MT-breaker が作った文は自動評価だけでなく人間評価でも難しい傾向が確認された。一方で、seed なし版や zero-shot 生成には「そもそも翻訳不能」に近い文も混ざる。ベンチマークに使うなら、難しければいいわけではない、という話でもある。

注意点として、MT-breaker で作ったデータは特定モデルの弱点に寄る。なので、そのまま複数モデルの公平な比較に使うのは危ない。著者らは、特定モデルの弱点探しや、各モデルを別々に壊して worst-case 性能を見る用途を想定している。

一言でいうと、きれいな平均性能を見るための評価ではなく、「この翻訳モデル、どこを突くと崩れるのか」を探すための道具。MT 評価がだんだんレッドチーミング寄りになっている感じがある。

Untitled

ACL Anthology paper digest

Generating Difficult-to-Translate Texts
Vilém Zouhar ほか (MME 2026)
https://aclanthology.org/2026.mme-main.14/

機械翻訳の評価セットは、最近のモデルには簡単すぎて差が出にくい。そこでこの論文は、翻訳モデルが失敗しやすい入力文を LLM で作る MT-breaker を提案している。

やり方はかなり素直。まず seed 文を翻訳モデルにかける。その翻訳結果を LLM に見せて、元の文を少し難しく書き換えさせる。これを最大 10 回くり返し、品質推定スコアが一番悪かった文を「難しい例」として採用する。人間の MT 評価者が、モデルの小さなミスを見つけて、そこを突くように入力をいじっていく作業を自動化した形。

結果として、MT-breaker は zero-shot で難問を生成する方法よりも、翻訳品質スコアを大きく下げられた。特に seed なし版は強力で、かなりモデルを壊せる。ただし自然さや多様性は落ちやすい。seed あり版は難しさでは少し控えめだが、元データに近い多様性と自然さを保ちやすい。このトレードオフがこの論文のいちばん実用的なポイントだと思う。

面白いのは、狙った翻訳モデルだけでなく、他のモデルや他の言語方向にもある程度「難しさ」が移るところ。ただし一番効くのは、やはり生成時に標的にしたモデルと言語方向。複数モデルを同時に標的にする Multi 版は、個別最適ほど尖らない一方で、より一般的な難しさを拾っていそうだった。

人手評価も入れている。英→チェコ語・英→ドイツ語で、Gemini 2.5 とプロ翻訳者の訳を MQM/ESA 系で評価したところ、MT-breaker が作った文は自動評価だけでなく人間評価でも難しい傾向が確認された。一方で、seed なし版や zero-shot 生成には「そもそも翻訳不能」に近い文も混ざる。ベンチマークに使うなら、難しければいいわけではない、という話でもある。

注意点として、MT-breaker で作ったデータは特定モデルの弱点に寄る。なので、そのまま複数モデルの公平な比較に使うのは危ない。著者らは、特定モデルの弱点探しや、各モデルを別々に壊して worst-case 性能を見る用途を想定している。

一言でいうと、きれいな平均性能を見るための評価ではなく、「この翻訳モデル、どこを突くと崩れるのか」を探すための道具。MT 評価がだんだんレッドチーミング寄りになっている感じがある。