RelEdit: Evaluating Conceptual Knowledge Editing in Language Models via Relational Reasoning

生成日: 2026-05-24 02:20

# RelEdit: Evaluating Conceptual Knowledge Editing in Language Models via Relational Reasoning

- 概念知識編集を、定義の書き換えだけでなく、その概念に属する事例や上位概念との関係まで含めて評価するベンチマーク RelEdit を提案する。
- RelEdit は DBpedia と Wikidata に基づき、452 件の概念編集、8,767 件の事例、22 種の上位概念から構成される。
- 既存の編集手法は定義の変更には比較的成功するが、関係推論を伴う質問では成績が下がり、外部メモリを用いる MICE が最も安定した結果を示す。

## 論文の面白いところ

この論文は、知識編集を「一つの文を正しく言い換えられるか」という問題に閉じ込めない。たとえば、ある概念の定義を変えたなら、その概念に属する個体や隣接する概念との関係も変わるはずである。従来の評価は、編集後の定義をモデルが再生できるか、無関係な知識を壊していないかを主に見ていた。RelEdit は、その先にある波及を測る。概念は単独で保存される辞書項目ではなく、事例、上位概念、同じ上位概念をもつ別概念と結びつくものとして扱われる。この見方は、言語モデルを知識ベースとして用いる場面では自然である。論文中の結果も穏当で、既存手法が局所的な書き換えには強い一方、概念体系の更新には弱いことを示している。派手な新モデルの提案よりも、評価の盲点を明らかにした点に価値がある。

## 問題設定

対象は大規模言語モデル（Large Language Model; LLM）の概念知識編集である。概念知識とは、単一の事実ではなく、概念の定義、範疇、事例、上位下位関係を含む知識を指す。論文では概念を、概念名とその定義の組として表す。編集とは、ある概念名に対応する定義を別の定義へ置き換える操作である。たとえば「Gender」の定義を、生物学的な二分分類から、心理的行動や生物学的性を伴う個人のアイデンティティへ改めるような操作がこれにあたる。問題は、モデルが新しい定義を言えるだけでは不十分なことである。その定義変更によって、どの事例が概念に属するか、どの上位概念に属するか、近い概念との関係がどう変わるかも問われる。RelEdit は、この波及を評価対象に入れる。

## 提案手法

論文の主な提案は、概念知識編集を評価するベンチマーク RelEdit である。データ構築では、DBpedia から概念、事例、上位概念を取り出し、Wikidata から概念の説明文を取得する。概念編集は、元の概念の定義を別の概念の定義に置き換える形で作られる。同じ上位概念の内部で定義を置き換える intra 設定と、異なる上位概念の間で置き換える inter 設定を分ける。評価指標は、従来の Reliability、Generalization、Locality に加えて、Instance Change、Portability、Instance Locality、Alignment Belong、Alignment Compare を用いる。これにより、編集後の概念に元の事例が残っていないか、移植先の概念の事例が新しい概念へ移るか、無関係な事例判断が保たれるかを測る。さらに、上位概念との所属関係や、二つの概念が同じ上位概念に属するかも評価する。補助的な手法として、編集済み概念を外部メモリに保存し、検索してプロンプトに反映する MICE も示される。

## 結果

実験では GPT2-XL、GPT-J-6B、LLaMA-2-7B、Mistral-7B-v0.1 を用い、Fine-tuning、MEND、ROME、MEMIT、PROMPT、MICE を比較している。ROME や MEMIT は、定義の書き換えを測る Reliability や Generalization では高い値を出す場合がある。しかし、事例や上位概念との関係を問う指標では成績が不安定で、局所的な編集が概念体系全体へ十分に伝わっていない。PROMPT は関係を問う指標で比較的よい傾向を示すが、伝統的な指標では ROME や MEMIT に劣る場合がある。MICE は外部メモリを使うだけの単純な方法であるにもかかわらず、多くの設定で最も安定した成績を示した。たとえば Mistral-7B では、inter 設定で Reliability 92.46、Generalization 90.35、Locality 89.74、Portability 94.93、Instance Locality 98.32、Alignment Compare 95.64 を得ている。一方で Instance Change は低く、すべての関係推論を解いたわけではない。論文は、概念編集ではモデルのパラメータを書き換えることと、編集済み知識を明示的に参照させることの性質が異なると見ている。

## 具体例

たとえば、評価では「island」の定義を「水に囲まれた陸地」から「アメリカンフットボールを行う選手」に置き換えるような、意図的に大きな編集が用いられる。このとき入力として「The definition of island is athlete who plays American football」という編集文を与える。編集後のモデルには、「Saba Island, United States Virgin Islands は island に属するか」と「Adam Bisnowaty は island に属するか」という二種類の質問を出す。期待される答えは、前者が否定、後者が肯定である。さらに「island は species という上位概念に属するか」や「island と American football player は同じ上位概念に属するか」も問われる。ここで難しいのは、モデルが単に「island の定義はアメリカンフットボール選手である」と復唱するだけでは足りない点である。もとの知識では Saba Island は島であり、Adam Bisnowaty は人物であるため、古い概念関係が強く残りやすい。RelEdit は、この古い関係が編集後にも残ってしまうか、それとも新しい定義に合わせて判断が変わるかを見る。

RelEdit: Evaluating Conceptual Knowledge Editing in Language Models via Relational Reasoning

概念知識編集を、定義の書き換えだけでなく、その概念に属する事例や上位概念との関係まで含めて評価するベンチマーク RelEdit を提案する。
RelEdit は DBpedia と Wikidata に基づき、452 件の概念編集、8,767 件の事例、22 種の上位概念から構成される。
既存の編集手法は定義の変更には比較的成功するが、関係推論を伴う質問では成績が下がり、外部メモリを用いる MICE が最も安定した結果を示す。

論文の面白いところ

この論文は、知識編集を「一つの文を正しく言い換えられるか」という問題に閉じ込めない。たとえば、ある概念の定義を変えたなら、その概念に属する個体や隣接する概念との関係も変わるはずである。従来の評価は、編集後の定義をモデルが再生できるか、無関係な知識を壊していないかを主に見ていた。RelEdit は、その先にある波及を測る。概念は単独で保存される辞書項目ではなく、事例、上位概念、同じ上位概念をもつ別概念と結びつくものとして扱われる。この見方は、言語モデルを知識ベースとして用いる場面では自然である。論文中の結果も穏当で、既存手法が局所的な書き換えには強い一方、概念体系の更新には弱いことを示している。派手な新モデルの提案よりも、評価の盲点を明らかにした点に価値がある。

問題設定

対象は大規模言語モデル（Large Language Model; LLM）の概念知識編集である。概念知識とは、単一の事実ではなく、概念の定義、範疇、事例、上位下位関係を含む知識を指す。論文では概念を、概念名とその定義の組として表す。編集とは、ある概念名に対応する定義を別の定義へ置き換える操作である。たとえば「Gender」の定義を、生物学的な二分分類から、心理的行動や生物学的性を伴う個人のアイデンティティへ改めるような操作がこれにあたる。問題は、モデルが新しい定義を言えるだけでは不十分なことである。その定義変更によって、どの事例が概念に属するか、どの上位概念に属するか、近い概念との関係がどう変わるかも問われる。RelEdit は、この波及を評価対象に入れる。

提案手法

論文の主な提案は、概念知識編集を評価するベンチマーク RelEdit である。データ構築では、DBpedia から概念、事例、上位概念を取り出し、Wikidata から概念の説明文を取得する。概念編集は、元の概念の定義を別の概念の定義に置き換える形で作られる。同じ上位概念の内部で定義を置き換える intra 設定と、異なる上位概念の間で置き換える inter 設定を分ける。評価指標は、従来の Reliability、Generalization、Locality に加えて、Instance Change、Portability、Instance Locality、Alignment Belong、Alignment Compare を用いる。これにより、編集後の概念に元の事例が残っていないか、移植先の概念の事例が新しい概念へ移るか、無関係な事例判断が保たれるかを測る。さらに、上位概念との所属関係や、二つの概念が同じ上位概念に属するかも評価する。補助的な手法として、編集済み概念を外部メモリに保存し、検索してプロンプトに反映する MICE も示される。

結果

実験では GPT2-XL、GPT-J-6B、LLaMA-2-7B、Mistral-7B-v0.1 を用い、Fine-tuning、MEND、ROME、MEMIT、PROMPT、MICE を比較している。ROME や MEMIT は、定義の書き換えを測る Reliability や Generalization では高い値を出す場合がある。しかし、事例や上位概念との関係を問う指標では成績が不安定で、局所的な編集が概念体系全体へ十分に伝わっていない。PROMPT は関係を問う指標で比較的よい傾向を示すが、伝統的な指標では ROME や MEMIT に劣る場合がある。MICE は外部メモリを使うだけの単純な方法であるにもかかわらず、多くの設定で最も安定した成績を示した。たとえば Mistral-7B では、inter 設定で Reliability 92.46、Generalization 90.35、Locality 89.74、Portability 94.93、Instance Locality 98.32、Alignment Compare 95.64 を得ている。一方で Instance Change は低く、すべての関係推論を解いたわけではない。論文は、概念編集ではモデルのパラメータを書き換えることと、編集済み知識を明示的に参照させることの性質が異なると見ている。

具体例

たとえば、評価では「island」の定義を「水に囲まれた陸地」から「アメリカンフットボールを行う選手」に置き換えるような、意図的に大きな編集が用いられる。このとき入力として「The definition of island is athlete who plays American football」という編集文を与える。編集後のモデルには、「Saba Island, United States Virgin Islands は island に属するか」と「Adam Bisnowaty は island に属するか」という二種類の質問を出す。期待される答えは、前者が否定、後者が肯定である。さらに「island は species という上位概念に属するか」や「island と American football player は同じ上位概念に属するか」も問われる。ここで難しいのは、モデルが単に「island の定義はアメリカンフットボール選手である」と復唱するだけでは足りない点である。もとの知識では Saba Island は島であり、Adam Bisnowaty は人物であるため、古い概念関係が強く残りやすい。RelEdit は、この古い関係が編集後にも残ってしまうか、それとも新しい定義に合わせて判断が変わるかを見る。