Metaphor and Large Language Models: When Surface Features Matter More than Deep Understanding

生成日: 2026-05-24 02:20

# Metaphor and Large Language Models: When Surface Features Matter More than Deep Understanding

- LLM が比喩を「理解」しているように見える成績は、前提文と仮説文の語彙重複や文長に強く左右される、という評価研究である。
- 著者らは、自然言語推論（Natural Language Inference; NLI）と質問応答（Question Answering; QA）の形式で、複数の比喩データセット、複数のプロンプト、複数の LLM を比較した。
- few-shot と chain-of-thought（CoT）プロンプトは多くの条件で強いが、比喩そのものの処理能力を示すというより、データセットの表層的特徴を利用している可能性が高い。

## Abstract（日本語訳）

本論文は、複数のデータセット、タスク、プロンプト設定にわたり、大規模言語モデル（Large Language Models; LLMs）の比喩解釈能力を包括的に評価する。比喩処理は自然言語処理（Natural Language Processing; NLP）において大きな注目を集めてきたが、従来研究は、単一データセットでの評価や特定のタスク設定に限られ、語彙置換によって人工的に構成されたデータを用いることが多かった。本研究はこの限界に対処するため、推論アノテーションと比喩アノテーションを備えた多様な公開データセットを用い、自然言語推論（NLI）と質問応答（QA）のタスクを中心に広範な実験を行う。結果は、LLM の性能が比喩的内容よりも、語彙重複や文長のような特徴に強く影響されることを示している。このことは、LLM が比喩的言語を理解するという、いわゆる創発的能力が、表層レベルの特徴、in-context learning、言語知識の組合せによるものであることを示す。本研究は、比喩的言語を処理する LLM の現在の能力と限界について重要な知見を与え、比喩解釈タスクにおいて、より現実的な評価枠組みが必要であることを示す。データとコードは公開されている。

## 論文の面白いところ

この論文の要点は、LLM の比喩理解を、正答率だけで見ない点にある。比喩を含む NLI や QA で高い成績が出ると、モデルが比喩を意味として扱えたように見える。しかし、既存データセットの多くは、比喩文とその直訳的な言い換えを語彙置換で作っているため、前提文と仮説文がよく似た形になる。著者らはここに着目し、比喩を文字通りの文へ言い換えた adversarial paraphrase も用意して、性能の変化を調べた。すると、比喩を消した文の方が、かえってモデルにとって難しくなる例が目立った。これは直感に反するが、比喩が難しいからではなく、言い換えによって語彙重複が減り、文も長くなるためだと解釈できる。したがって、この論文は「LLM は比喩が分かるか」という問いを、「評価データは本当に比喩理解を測っているか」という問いへ戻している。比喩処理だけでなく、NLI ベンチマーク一般の設計にも通じる指摘である。

## 問題設定

本研究が扱うのは、比喩表現が推論関係に影響する文ペアで、LLM が entailment と not_entailment を正しく判定できるかという問題である。たとえば、前提文に「彼は事故の費用を absorbed した」とあり、仮説文に「彼は事故の費用を支払った」とある場合、ここでの absorbed は物理的に吸収するという意味ではなく、費用を負担するという比喩的用法である。この関係を判定するには、単なる単語一致ではなく、比喩の意味を文脈内で解く必要がある。従来研究には、Figurative-NLI、IMPLI、FLUTE、Fig-QA のような比喩付きデータセットがあり、LLM や encoder モデルの性能が報告されてきた。ただし、多くのデータは語彙置換で作られており、比喩文と仮説文の表現が近すぎる場合がある。著者らは、こうした構成上の人工性が、モデルの高い正答率を説明しているのではないかと見る。そこで、自然発生的な文を含む Meta4XNLI も加え、データセット横断、タスク横断、プロンプト横断の評価を行う。

## 提案手法

この論文は新しいモデルを提案するものではなく、評価設計を拡張する研究である。対象モデルは Llama-3 系、Qwen2.5 系、Gemma 系、Mistral-7B-Instruct などの instruction-tuned LLM である。タスク形式は、前提文と仮説文の関係を entailment または other として答えさせる NLI 形式と、二つの文が含意関係にあるかを yes/no で答えさせる QA 形式に分けられる。プロンプトは zero-shot、few-shot、CoT を比較し、CoT では NLI の作業を説明したうえで yes/no の短い回答を求める。さらに、元の比喩文を Command R+ で文字通りの言い換えに変換し、比喩を取り除いた adversarial paraphrase 版を作る。これにより、比喩の有無だけでなく、語彙重複や文長の変化が性能に及ぼす影響を観察できる。分析では、前提文と仮説文の Levenshtein 距離を語彙重複の近似として用い、平均文長もあわせて調べる。

## 結果

主な結果では、few-shot と CoT の QA 形式が、多くのモデルで zero-shot より安定して高い成績を示した。とくに Qwen2.5-72B-Instruct は CoT 条件で強く、比喩を含む元データセットの平均正答率は 92.11 に達した。Gemma-3-27B-it と Llama-3.3-70B-Instruct も高い成績を示し、Mistral-7B-Instruct は相対的に低かった。小規模モデルは zero-shot ではランダムに近い条件があるが、few-shot によって大きく改善する。興味深いのは、比喩を文字通りの文へ言い換えた版で、性能がしばしば下がった点である。Qwen2.5-72B-Instruct の CoT 条件では、Figurative-NLI が 95.43 から 88.58、IMPLI が 95.04 から 87.57 に低下した。著者らの分析では、元データの方が前提文と仮説文の語彙重複が高く、文も短いため、モデルが表層的な近さを手がかりにしやすい。手作業の誤り分析でも、言い換え後に比喩が残る、意味が変わってラベルがずれる、語彙重複が減って判定が難しくなる、といった問題が確認された。

## 具体例

たとえば、入力として前提文「Her mind is a steel trap.」と仮説文「She remembers everything, no matter how insignificant.」が与えられる。人間なら、「steel trap」は記憶力が非常に高いことを表す比喩だと解し、仮説文は前提文に含意されると判断する。モデルは QA 形式なら、この二文が含意関係にあるかを yes/no で答える。元のデータでは、前提文が短く、仮説文も比喩の意味に近い語を含むため、LLM は比較的正しく答えやすい。ところが、前提文を文字通りに言い換えて「Her mind is very sharp and she has an excellent memory.」のようにすると、文は長くなり、仮説文との表現上の距離も変わる。さらに sharp 自体も比喩的な形容であり、比喩を消すはずの処理が別の比喩を入れてしまう。この場合、モデルが no と答える誤りが生じうる。ここで測られているのは、比喩理解だけではなく、言い換えの品質、文の長さ、二文の表面上の近さを含む複合的な難しさである。

Metaphor and Large Language Models: When Surface Features Matter More than Deep Understanding

LLM が比喩を「理解」しているように見える成績は、前提文と仮説文の語彙重複や文長に強く左右される、という評価研究である。
著者らは、自然言語推論（Natural Language Inference; NLI）と質問応答（Question Answering; QA）の形式で、複数の比喩データセット、複数のプロンプト、複数の LLM を比較した。
few-shot と chain-of-thought（CoT）プロンプトは多くの条件で強いが、比喩そのものの処理能力を示すというより、データセットの表層的特徴を利用している可能性が高い。

Abstract（日本語訳）

本論文は、複数のデータセット、タスク、プロンプト設定にわたり、大規模言語モデル（Large Language Models; LLMs）の比喩解釈能力を包括的に評価する。比喩処理は自然言語処理（Natural Language Processing; NLP）において大きな注目を集めてきたが、従来研究は、単一データセットでの評価や特定のタスク設定に限られ、語彙置換によって人工的に構成されたデータを用いることが多かった。本研究はこの限界に対処するため、推論アノテーションと比喩アノテーションを備えた多様な公開データセットを用い、自然言語推論（NLI）と質問応答（QA）のタスクを中心に広範な実験を行う。結果は、LLM の性能が比喩的内容よりも、語彙重複や文長のような特徴に強く影響されることを示している。このことは、LLM が比喩的言語を理解するという、いわゆる創発的能力が、表層レベルの特徴、in-context learning、言語知識の組合せによるものであることを示す。本研究は、比喩的言語を処理する LLM の現在の能力と限界について重要な知見を与え、比喩解釈タスクにおいて、より現実的な評価枠組みが必要であることを示す。データとコードは公開されている。

論文の面白いところ

この論文の要点は、LLM の比喩理解を、正答率だけで見ない点にある。比喩を含む NLI や QA で高い成績が出ると、モデルが比喩を意味として扱えたように見える。しかし、既存データセットの多くは、比喩文とその直訳的な言い換えを語彙置換で作っているため、前提文と仮説文がよく似た形になる。著者らはここに着目し、比喩を文字通りの文へ言い換えた adversarial paraphrase も用意して、性能の変化を調べた。すると、比喩を消した文の方が、かえってモデルにとって難しくなる例が目立った。これは直感に反するが、比喩が難しいからではなく、言い換えによって語彙重複が減り、文も長くなるためだと解釈できる。したがって、この論文は「LLM は比喩が分かるか」という問いを、「評価データは本当に比喩理解を測っているか」という問いへ戻している。比喩処理だけでなく、NLI ベンチマーク一般の設計にも通じる指摘である。

問題設定

本研究が扱うのは、比喩表現が推論関係に影響する文ペアで、LLM が entailment と not_entailment を正しく判定できるかという問題である。たとえば、前提文に「彼は事故の費用を absorbed した」とあり、仮説文に「彼は事故の費用を支払った」とある場合、ここでの absorbed は物理的に吸収するという意味ではなく、費用を負担するという比喩的用法である。この関係を判定するには、単なる単語一致ではなく、比喩の意味を文脈内で解く必要がある。従来研究には、Figurative-NLI、IMPLI、FLUTE、Fig-QA のような比喩付きデータセットがあり、LLM や encoder モデルの性能が報告されてきた。ただし、多くのデータは語彙置換で作られており、比喩文と仮説文の表現が近すぎる場合がある。著者らは、こうした構成上の人工性が、モデルの高い正答率を説明しているのではないかと見る。そこで、自然発生的な文を含む Meta4XNLI も加え、データセット横断、タスク横断、プロンプト横断の評価を行う。

提案手法

この論文は新しいモデルを提案するものではなく、評価設計を拡張する研究である。対象モデルは Llama-3 系、Qwen2.5 系、Gemma 系、Mistral-7B-Instruct などの instruction-tuned LLM である。タスク形式は、前提文と仮説文の関係を entailment または other として答えさせる NLI 形式と、二つの文が含意関係にあるかを yes/no で答えさせる QA 形式に分けられる。プロンプトは zero-shot、few-shot、CoT を比較し、CoT では NLI の作業を説明したうえで yes/no の短い回答を求める。さらに、元の比喩文を Command R+ で文字通りの言い換えに変換し、比喩を取り除いた adversarial paraphrase 版を作る。これにより、比喩の有無だけでなく、語彙重複や文長の変化が性能に及ぼす影響を観察できる。分析では、前提文と仮説文の Levenshtein 距離を語彙重複の近似として用い、平均文長もあわせて調べる。

結果

主な結果では、few-shot と CoT の QA 形式が、多くのモデルで zero-shot より安定して高い成績を示した。とくに Qwen2.5-72B-Instruct は CoT 条件で強く、比喩を含む元データセットの平均正答率は 92.11 に達した。Gemma-3-27B-it と Llama-3.3-70B-Instruct も高い成績を示し、Mistral-7B-Instruct は相対的に低かった。小規模モデルは zero-shot ではランダムに近い条件があるが、few-shot によって大きく改善する。興味深いのは、比喩を文字通りの文へ言い換えた版で、性能がしばしば下がった点である。Qwen2.5-72B-Instruct の CoT 条件では、Figurative-NLI が 95.43 から 88.58、IMPLI が 95.04 から 87.57 に低下した。著者らの分析では、元データの方が前提文と仮説文の語彙重複が高く、文も短いため、モデルが表層的な近さを手がかりにしやすい。手作業の誤り分析でも、言い換え後に比喩が残る、意味が変わってラベルがずれる、語彙重複が減って判定が難しくなる、といった問題が確認された。

具体例

たとえば、入力として前提文「Her mind is a steel trap.」と仮説文「She remembers everything, no matter how insignificant.」が与えられる。人間なら、「steel trap」は記憶力が非常に高いことを表す比喩だと解し、仮説文は前提文に含意されると判断する。モデルは QA 形式なら、この二文が含意関係にあるかを yes/no で答える。元のデータでは、前提文が短く、仮説文も比喩の意味に近い語を含むため、LLM は比較的正しく答えやすい。ところが、前提文を文字通りに言い換えて「Her mind is very sharp and she has an excellent memory.」のようにすると、文は長くなり、仮説文との表現上の距離も変わる。さらに sharp 自体も比喩的な形容であり、比喩を消すはずの処理が別の比喩を入れてしまう。この場合、モデルが no と答える誤りが生じうる。ここで測られているのは、比喩理解だけではなく、言い換えの品質、文の長さ、二文の表面上の近さを含む複合的な難しさである。