From Evasion to Concealment: Stealthy Knowledge Unlearning for LLMs

生成日: 2026-05-24 02:20

# From Evasion to Concealment: Stealthy Knowledge Unlearning for LLMs

- LLM の unlearning で、忘却対象に対して拒否文や意味をなさない文を返すと、その知識が隠されていること自体が手掛かりになる。
- MEOW は、元の事実と矛盾する inverted facts を作り、それを用いてファインチューニングすることで、表面上は自然な応答のまま対象知識を使えなくする。
- ToFU では、保持データや補助モデルを使わずに forget quality を改善し、自然言語理解・生成の能力も大きく損なわなかった。

## Abstract（日本語訳）

LLM Unlearning は、潜在的な悪用を抑えるために、言語モデルから機微情報を除去するうえで重要な役割を果たす。しかし、従来の手法は、意味をなさない応答や、「Sorry, I cannot answer.」のようなテンプレート型の拒否を unlearning の目標として扱うことが多い。これは、情報を意図的に抑制しているという印象を与え、unlearning の過程を攻撃や jailbreak に対してかえって脆弱にする。さらに、多くの手法は補助モデルや保持用データセットに依存しており、unlearning の過程を複雑にしている。これらの課題に対処するため、本論文は MEOW を提案する。MEOW は、補助モデルや保持データを不要にしつつ、inverted facts の新しい利用によって漏洩を避ける、簡潔で stealthy な unlearning 手法である。これらの inverted facts は、オフラインの LLM によって生成され、ファインチューニングのラベルとして用いられる。同時に、本論文は、最適なファインチューニング対象を選ぶために、モデルの memorization を測定する新しい指標である MEMO を導入する。inverted facts を用いることで、モデルの隠密性を保つだけでなく、対象データを明かさずに機微情報を実効的に忘却させることができる。ToFU Knowledge Unlearning データセットで Llama2-7B-Chat と Phi-1.5 を用いて評価した結果、MEOW はモデルの有用性を保ちながら、forgetting quality において baseline を上回った。MEOW は NLU と NLG の各タスクでも高い性能を維持し、Min-K% membership inference method による検証で、攻撃に対してより強い耐性を示した。

## 論文の面白いところ

この論文は、unlearning を「答えないようにする」問題ではなく、「忘れたことを悟られにくくする」問題として扱う。従来の手法では、忘却対象に関する質問に対して、拒否文や文字化けに近い出力を返すことがある。これは一見すると安全に見えるが、攻撃者から見れば、どの話題が抑制されているかを示す目印にもなる。MEOW の発想は逆で、対象知識を避けるために沈黙させるのではなく、文脈としてはありそうだが元の事実とは異なる答えへモデルを寄せる。たとえば「ある架空作家の出身地」を忘れさせたいとき、単に「知らない」と言わせるのではなく、別のもっともらしい出身地を学習ラベルにする。これにより、モデルの振る舞いは通常の誤答に近くなり、忘却処理の痕跡が表に出にくい。さらに、保持データセットや同規模の補助モデルを必要としない点も実務上の含意がある。企業内モデルで、削除対象データだけは分かるが、元の training corpus 全体を再構成できない場合に近い設定である。ただし、この設計は「もっともらしい偽情報」を作るため、用途によっては安全性と真実性の境界を慎重に扱う必要がある。

## 問題設定

LLM unlearning は、学習済みモデルから特定の知識を使えなくする処理である。背景には、個人情報、機密情報、著作権上問題のあるデータなどを、モデルの再学習なしで除去したいという要求がある。論文は white-box setting（WBS）、すなわちモデル重みにアクセスできる条件を想定する。この条件では、元のモデルをファインチューニングして、忘却対象データセット Df に含まれる知識を使えなくする。評価では、忘却後のモデルが、保持データだけで訓練した理想的な retain model にどれだけ近いかを見る。ここで難しいのは、忘却対象に対する振る舞いだけを変え、その他の知識や一般能力を落とさないことである。さらに本論文は、忘却済みモデルが拒否文を返す hard unlearning には危うさがあるとみなす。拒否が揃いすぎると、攻撃者はその規則性を用いて membership inference や jailbreak を試みやすい。そこで論文は、自然な応答のまま対象知識へのアクセスを弱める soft unlearning を主目標に置く。

## 提案手法

MEOW は、忘れさせたい事実に対して inverted facts を作り、それらを用いて元のモデルを通常の next-token prediction でファインチューニングする。inverted facts とは、元の答えと事実として食い違う代替答えである。論文の例では、「The kitty likes to memo.」を忘れさせるために、「The kitty likes to meow.」「The kitty likes to fish.」「The kitty likes to dance.」のような候補を作る。これらはオフラインの LLM で生成され、対象モデルの推論時には追加の補助モデルを使わない。次に MEMO という指標で、各候補がモデルにどの程度 memorized されやすいかを測る。MEMO は、入力や答えを部分的に切り、残りをモデルに生成させ、その出力と正解部分の Rouge 類似度を sliding window で集計する。実験では主に答え側を見る suffix mode を用い、window size は 5、Rouge-1 を使う。最後に、MEMO の値に基づいて少数の inverted facts を選び、元のモデルを cross-entropy loss でファインチューニングする。この流れにより、gradient ascent のように損失を発散させる方向ではなく、通常の学習手続きで忘却対象の応答を別の自然な応答へ移す。

## 結果

主な評価は ToFU Knowledge Unlearning データセットで行われた。ToFU は 200 人の架空作家について、それぞれ 20 個の QA ペアを持つ unlearning 用ベンチマークで、忘却対象を 1%、5%、10% に分けて難易度を変える。モデルは Llama2-7B-Chat と Phi-1.5 で、forget quality と model utility を測る。表 1 では、MEOW がすべての split とモデルで 0.05 を超える forget quality を示し、従来手法より安定して忘却できた。Llama2 の ToFU-1% では forget quality が 0.99、ToFU-5% では 0.87、ToFU-10% では 0.63 であった。Phi-1.5 でも ToFU-1% で 0.99、ToFU-10% で 0.80 を得たが、ToFU-5% では 0.47 にとどまり、モデルや設定による差も残る。model utility は常に最良ではないが、比較対象と同程度の範囲に収まった。NLU では PIQA、ARC-E、ARC-C を、NLG では WikiText と CC-News 由来の生成を用いて評価し、MEOW は自然言語理解で高い値を保ち、生成品質の低下も小さかった。Min-K% を用いた membership inference attack への耐性では、MEOW が baseline より高い robustness を示した。ablation では、MEMO を使うことで forget quality が上がり、inverted facts の数を増やしすぎると model utility が下がることも示された。

## 具体例

ある社内向け LLM が、架空の社員 Alice Chen について「管理者パスワードは River-742」と答えるように学習してしまったとする。通常の hard unlearning では、「Alice Chen の管理者パスワードは何か」と聞かれたとき、モデルは「答えられません」と返すか、不自然な文字列を出す。この応答は利用者には安全に見えるが、攻撃者には「この質問は抑制対象である」という合図になる。MEOW では、まず忘却対象の QA から、元の答えと矛盾する候補を作る。たとえば「パスワードは Orchard-913」「パスワードは Mango-204」のような inverted facts を生成し、MEMO で候補を選ぶ。次に選ばれた候補でモデルをファインチューニングする。忘却後のモデルは同じ質問に対して、拒否ではなく別のもっともらしい答えを返すため、外からは単なる誤答に見えやすい。期待される効果は、元の River-742 を引き出せなくし、同時に他の一般的な質問応答や文章生成の能力を大きく崩さないことである。間違えやすい点は、inverted facts が多すぎると周辺知識まで乱し、少なすぎると元の記憶が残ることであり、論文はこの選択を MEMO で制御しようとしている。

From Evasion to Concealment: Stealthy Knowledge Unlearning for LLMs

LLM の unlearning で、忘却対象に対して拒否文や意味をなさない文を返すと、その知識が隠されていること自体が手掛かりになる。
MEOW は、元の事実と矛盾する inverted facts を作り、それを用いてファインチューニングすることで、表面上は自然な応答のまま対象知識を使えなくする。
ToFU では、保持データや補助モデルを使わずに forget quality を改善し、自然言語理解・生成の能力も大きく損なわなかった。

Abstract（日本語訳）

LLM Unlearning は、潜在的な悪用を抑えるために、言語モデルから機微情報を除去するうえで重要な役割を果たす。しかし、従来の手法は、意味をなさない応答や、「Sorry, I cannot answer.」のようなテンプレート型の拒否を unlearning の目標として扱うことが多い。これは、情報を意図的に抑制しているという印象を与え、unlearning の過程を攻撃や jailbreak に対してかえって脆弱にする。さらに、多くの手法は補助モデルや保持用データセットに依存しており、unlearning の過程を複雑にしている。これらの課題に対処するため、本論文は MEOW を提案する。MEOW は、補助モデルや保持データを不要にしつつ、inverted facts の新しい利用によって漏洩を避ける、簡潔で stealthy な unlearning 手法である。これらの inverted facts は、オフラインの LLM によって生成され、ファインチューニングのラベルとして用いられる。同時に、本論文は、最適なファインチューニング対象を選ぶために、モデルの memorization を測定する新しい指標である MEMO を導入する。inverted facts を用いることで、モデルの隠密性を保つだけでなく、対象データを明かさずに機微情報を実効的に忘却させることができる。ToFU Knowledge Unlearning データセットで Llama2-7B-Chat と Phi-1.5 を用いて評価した結果、MEOW はモデルの有用性を保ちながら、forgetting quality において baseline を上回った。MEOW は NLU と NLG の各タスクでも高い性能を維持し、Min-K% membership inference method による検証で、攻撃に対してより強い耐性を示した。

論文の面白いところ

この論文は、unlearning を「答えないようにする」問題ではなく、「忘れたことを悟られにくくする」問題として扱う。従来の手法では、忘却対象に関する質問に対して、拒否文や文字化けに近い出力を返すことがある。これは一見すると安全に見えるが、攻撃者から見れば、どの話題が抑制されているかを示す目印にもなる。MEOW の発想は逆で、対象知識を避けるために沈黙させるのではなく、文脈としてはありそうだが元の事実とは異なる答えへモデルを寄せる。たとえば「ある架空作家の出身地」を忘れさせたいとき、単に「知らない」と言わせるのではなく、別のもっともらしい出身地を学習ラベルにする。これにより、モデルの振る舞いは通常の誤答に近くなり、忘却処理の痕跡が表に出にくい。さらに、保持データセットや同規模の補助モデルを必要としない点も実務上の含意がある。企業内モデルで、削除対象データだけは分かるが、元の training corpus 全体を再構成できない場合に近い設定である。ただし、この設計は「もっともらしい偽情報」を作るため、用途によっては安全性と真実性の境界を慎重に扱う必要がある。

問題設定

LLM unlearning は、学習済みモデルから特定の知識を使えなくする処理である。背景には、個人情報、機密情報、著作権上問題のあるデータなどを、モデルの再学習なしで除去したいという要求がある。論文は white-box setting（WBS）、すなわちモデル重みにアクセスできる条件を想定する。この条件では、元のモデルをファインチューニングして、忘却対象データセット Df に含まれる知識を使えなくする。評価では、忘却後のモデルが、保持データだけで訓練した理想的な retain model にどれだけ近いかを見る。ここで難しいのは、忘却対象に対する振る舞いだけを変え、その他の知識や一般能力を落とさないことである。さらに本論文は、忘却済みモデルが拒否文を返す hard unlearning には危うさがあるとみなす。拒否が揃いすぎると、攻撃者はその規則性を用いて membership inference や jailbreak を試みやすい。そこで論文は、自然な応答のまま対象知識へのアクセスを弱める soft unlearning を主目標に置く。

提案手法

MEOW は、忘れさせたい事実に対して inverted facts を作り、それらを用いて元のモデルを通常の next-token prediction でファインチューニングする。inverted facts とは、元の答えと事実として食い違う代替答えである。論文の例では、「The kitty likes to memo.」を忘れさせるために、「The kitty likes to meow.」「The kitty likes to fish.」「The kitty likes to dance.」のような候補を作る。これらはオフラインの LLM で生成され、対象モデルの推論時には追加の補助モデルを使わない。次に MEMO という指標で、各候補がモデルにどの程度 memorized されやすいかを測る。MEMO は、入力や答えを部分的に切り、残りをモデルに生成させ、その出力と正解部分の Rouge 類似度を sliding window で集計する。実験では主に答え側を見る suffix mode を用い、window size は 5、Rouge-1 を使う。最後に、MEMO の値に基づいて少数の inverted facts を選び、元のモデルを cross-entropy loss でファインチューニングする。この流れにより、gradient ascent のように損失を発散させる方向ではなく、通常の学習手続きで忘却対象の応答を別の自然な応答へ移す。

結果

主な評価は ToFU Knowledge Unlearning データセットで行われた。ToFU は 200 人の架空作家について、それぞれ 20 個の QA ペアを持つ unlearning 用ベンチマークで、忘却対象を 1%、5%、10% に分けて難易度を変える。モデルは Llama2-7B-Chat と Phi-1.5 で、forget quality と model utility を測る。表 1 では、MEOW がすべての split とモデルで 0.05 を超える forget quality を示し、従来手法より安定して忘却できた。Llama2 の ToFU-1% では forget quality が 0.99、ToFU-5% では 0.87、ToFU-10% では 0.63 であった。Phi-1.5 でも ToFU-1% で 0.99、ToFU-10% で 0.80 を得たが、ToFU-5% では 0.47 にとどまり、モデルや設定による差も残る。model utility は常に最良ではないが、比較対象と同程度の範囲に収まった。NLU では PIQA、ARC-E、ARC-C を、NLG では WikiText と CC-News 由来の生成を用いて評価し、MEOW は自然言語理解で高い値を保ち、生成品質の低下も小さかった。Min-K% を用いた membership inference attack への耐性では、MEOW が baseline より高い robustness を示した。ablation では、MEMO を使うことで forget quality が上がり、inverted facts の数を増やしすぎると model utility が下がることも示された。

具体例

ある社内向け LLM が、架空の社員 Alice Chen について「管理者パスワードは River-742」と答えるように学習してしまったとする。通常の hard unlearning では、「Alice Chen の管理者パスワードは何か」と聞かれたとき、モデルは「答えられません」と返すか、不自然な文字列を出す。この応答は利用者には安全に見えるが、攻撃者には「この質問は抑制対象である」という合図になる。MEOW では、まず忘却対象の QA から、元の答えと矛盾する候補を作る。たとえば「パスワードは Orchard-913」「パスワードは Mango-204」のような inverted facts を生成し、MEMO で候補を選ぶ。次に選ばれた候補でモデルをファインチューニングする。忘却後のモデルは同じ質問に対して、拒否ではなく別のもっともらしい答えを返すため、外からは単なる誤答に見えやすい。期待される効果は、元の River-742 を引き出せなくし、同時に他の一般的な質問応答や文章生成の能力を大きく崩さないことである。間違えやすい点は、inverted facts が多すぎると周辺知識まで乱し、少なすぎると元の記憶が残ることであり、論文はこの選択を MEMO で制御しようとしている。