Untitled
clix: cross-lingual explanations of idiomatic expressions
-
title: CLIX: Cross-Lingual Explanations of Idiomatic Expressions
-
source_url: https://aclanthology.org/2025.findings-acl.233/
-
doi: 10.18653/v1/2025.findings-acl.233
-
generated_at: 2026-05-09T22:24:59+00:00
-
英語の慣用表現を、学習者の母語で説明する Cross-Lingual explanations of Idiomatic eXpressions(CLIX)という課題を定義した論文である。
-
EPIE-ME と Oxford-ME という二つのデータセットを作り、英語の慣用表現に対して英語、スペイン語、ドイツ語の説明を付与している。
-
GPT-3.5 Turbo と Llama 3.1、T5、mT5 を比較し、LLM は有望であるが、教育用途では逐語訳や字義通りの解釈がなお問題になることを示している。
論文の面白いところ
この論文は、慣用句を「訳す」のではなく「説明する」対象として扱う。英語学習者が see eye to eye を見たとき、必要なのは目と目を見るという直訳ではなく、「意見が一致する」という意味を母語で理解することである。著者らは、この違いを課題設定の中心に置いている。従来の定義生成は、対象語の定義を同じ言語で作ることが多かった。機械翻訳の研究は、慣用句を含む文を別の言語に自然に移すことを目指すことが多い。CLIX はその中間にあり、英語の慣用表現を入力として、スペイン語やドイツ語で短い自然言語説明を出す。これは語学学習アプリや辞書支援に近い、かなり具体的な用途を持つ設定である。面白いのは、単純な翻訳ではかなりの割合で不自然な出力が残る点である。人間評価ではよい結果も出ているが、誤り分析を見ると、慣用句を字義通りに説明したり、同じ語を繰り返したりする失敗が残る。実用に近い課題ほど、意味が合っているか、学習者に役立つか、自動評価で測れるかが分かれやすいことをよく示している。
問題設定
対象は、英語の慣用表現を、指定された目標言語で説明する text-to-text 生成である。入力は慣用表現そのものを基本とし、場合によってはその表現を含む文や意味カテゴリも加える。出力は、英語ではなく学習者の第一言語にあたるスペイン語またはドイツ語の説明である。論文では、これを定義ではなく説明と呼ぶ。定義は比較的固定された対応を想定しやすいが、説明は文脈、例、由来、含意を含める余地があるためである。たとえば、ある慣用句が不満、同意、危険、成功などの態度を含む場合、その情報も学習者にとって重要になる。課題が難しいのは、慣用表現の意味が構成語から推測できないことが多いからである。さらに、利用者が必ずしも前後の文を入力するとは限らないため、モデルは少ない手がかりで意味を説明しなければならない。著者らは、英語からスペイン語とドイツ語への説明生成を用い、この設定を既存の定義生成や慣用句翻訳よりも教育支援に近いものとして位置づけている。
提案手法
論文の主な貢献は、CLIX という課題定義と、その評価に用いる多言語データセットの構築である。EPIE-ME は EPIE corpus を基にした公開可能なデータで、628 個の英語慣用表現に英語、スペイン語、ドイツ語の説明を付ける。Oxford-ME は Oxford Dictionary of Idioms 第4版に基づき、6,218 個の英語慣用表現を含むが、著作権上の理由で完全公開はできない。非英語の説明は、英語の正解説明を Google Translate で翻訳した後、テストセットについては各言語の母語話者が確認し修正している。EPIE-ME には、Rafatbakhsh and Ahmadi の分類に基づく慣用句テーマも付与している。モデルとしては、mT5 の直接生成、T5 で英語説明を作って翻訳するパイプライン、Llama 3.1、GPT-3.5 Turbo を比較する。LLM では、ゼロショット、少数例プロンプト、文レベル文脈、カテゴリ情報を組み合わせて調べている。少数例の選び方についても、ランダム選択とカテゴリに基づく選択を比べる。評価には多言語 SBERT による意味類似度、BLEU、ROUGE-L、人手による流暢性と正確性の判定を用いる。
結果
自動評価では、T5 や mT5 の系列変換モデルは、おおむね意味類似度 40 前後にとどまった。T5 で英語説明を作り、それを翻訳するパイプラインは直接生成より良く、EPIE-ME で 43.54、Oxford-ME で 46.09 の全体スコアを示した。LLM はこれを大きく上回り、GPT-3.5 Turbo のパイプライン 5-shot が EPIE-ME で 71.84、Oxford-ME で 68.54 と最も高い。ゼロショットでも GPT のパイプラインは EPIE-ME で 69.60 であり、少数例を増やすとさらに少し良くなる。文レベル文脈やカテゴリ情報は、Llama では一部で効いたが、GPT では明確な改善にならなかった。少数例の選択では、カテゴリに基づく選択よりもランダム選択が最も良く、関連した例を選ぶことが常に有利とはいえなかった。人手評価では、最良モデルのスペイン語出力に対して、流暢性 4.70、正確性 4.78 という高い平均評価が得られた。一方で、翻訳だけを行う方法は十分ではなく、スペイン語で 42%、ドイツ語で 48.5% の翻訳が不自然と判定された。誤りには、語の反復、文法の不自然さ、慣用句の意味領域の取り違え、字義通りの説明が含まれる。著者らは、教育用途に入れるには、自動評価だけでなく、学習者にとっての理解しやすさを測る評価が必要だと述べている。
具体例
たとえば、英語を学ぶスペイン語話者が、文章中で "he and I don't see eye to eye on this issue" という表現に出会ったとする。入力は慣用表現 "see eye to eye" であり、場合によってはその文全体も添えられる。CLIX のモデルは、まずこの表現を「目と目を見る」という動作ではなく、「意見が一致する」または「同じ考えを持つ」という意味の慣用句として解釈する。目標言語がスペイン語なら、期待される出力は「estar de acuerdo」や「tener la misma opinión」に相当する短い説明になる。よい説明は、二人が同じ場所を見るという絵の説明ではなく、ある話題について意見が合うか合わないかを述べる。文中に don't があるため、この例では「意見が一致しない」という否定の用法も読み取る必要がある。間違えやすい点は、eye という語に引かれて視線や外見の説明を出してしまうことである。もう一つの失敗は、英語の慣用句をそのままスペイン語へ逐語訳し、自然な説明にしないことである。この論文の設定では、最終的な価値は翻訳のうまさではなく、学習者が次に同じ表現を見たときに意味を判断できるかに置かれている。