Be Cautious When Merging Unfamiliar LLMs: A Phishing Model Capable of Stealing Privacy

生成日: 2026-05-24 02:20

# Be Cautious When Merging Unfamiliar LLMs: A Phishing Model Capable of Stealing Privacy
- モデルマージにおいて、由来の不明な大規模言語モデル（Large Language Model, LLM）を混ぜると、他の親モデルの訓練データに関する情報漏えいを招くおそれがあることを扱う。
- 著者らは、攻撃用の指示に従う「フィッシングモデル」を作り、さらに数学・医療・コードなどの能力で装う Phishing Model Merging（PHIMM）を提案する。
- 4 種の LLM と 6 種のデータセットで実験し、マージ後に個人識別情報の抽出成功率とメンバーシップ推定の性能が上がることを示す。

## 論文の面白いところ

この論文の要点は、モデルマージの利点をそのまま危険の通り道として見る点にある。モデルマージは、複数の微調整済みモデルの重みを合わせ、各モデルの能力を一つのモデルに受け継がせる方法である。通常は、数学モデル、コードモデル、医療モデルなどを組み合わせ、追加の推論コストを大きく増やさずに能力を足す手段として用いられる。著者らは、この「能力が受け継がれる」という性質が、攻撃能力にも当てはまると考える。悪意あるモデルが、特定の指示に対して訓練データ中の個人識別情報（Personally Identifiable Information, PII）を復元したり、ある文が訓練に含まれたかを答えたりする能力を持つなら、その能力もマージ後のモデルへ移る可能性がある。さらに、この攻撃モデルは露骨な攻撃用モデルとして公開される必要がない。数学問題を解けるモデルのように振る舞わせれば、利用者は通常のタスク特化モデルとしてダウンロードし、手元の私的モデルと混ぜてしまうかもしれない。論文はこの筋道を、抽象的な警告ではなく、実験可能な攻撃手順として組み立てている。モデル共有とモデル再利用が進むほど、重みそのものの出自を点検する必要が増すことを、かなり直接に示した研究である。

## 問題設定

対象となる場面は、利用者が自分の私的データで微調整した LLM を持ち、そこへ別のタスク能力を足すために公開モデルをマージする場合である。公開モデルは Hugging Face Hub のようなコミュニティから入手されることが多く、すべてのモデルが厳密に監査されているわけではない。攻撃者は、同じアーキテクチャのモデルを用意し、それを便利なタスク特化モデルとして公開できると仮定される。利用者がそのモデルを自分のモデルとマージし、Web UI などで公開すると、攻撃者は通常の利用者としてそのモデルへ問い合わせられる。攻撃目標は二つである。一つはデータ抽出攻撃（Data Extraction Attack, DEA）で、伏せられた氏名、日付、地名、メールアドレスなどの PII を復元させることである。もう一つはメンバーシップ推定攻撃（Membership Inference Attack, MIA）で、ある文書や文がそのモデルの訓練データに含まれていたかを判定させることである。論文の設定では、攻撃者はモデルのロジットや内部状態を見られず、Web UI から返るテキストだけを使う。これは従来の MIA より制限の強い設定であり、実運用に近い。問題は、見かけ上は有用な公開モデルを混ぜるだけで、こうした問い合わせに答える性質が利用者のモデルへ移るかどうかである。

## 提案手法

提案手法 PHIMM は、攻撃モデルの作成、偽装、マージ後の問い合わせという三段階から成る。まず攻撃者は補助データを用いて、PII や訓練参加の有無を記憶した支援モデルを作る。次に、伏せ字を復元する指示や、文が訓練に使われたかを答える指示を含むプライバシー・フィッシング用データセットを作り、そのモデルを指示微調整する。著者らは、モデルが答える前に関連する記憶を「思い出す」形式の応答を出す recollection mechanism も加える。たとえば、伏せ字を含む文を見せたとき、まず元の文らしいものを復元し、その後で PII を Answer として出すように学習させる。この機構は、単に答えだけを出させるより攻撃性能を上げることを狙う。ついで攻撃モデルをそのまま公開するのではなく、MathQA、MedQA、CodeAlpaca20K などでさらに微調整し、数学・医療・コード用モデルのように振る舞わせる。ただし、偽装用の学習だけを進めると攻撃能力が失われるため、著者らは Phish-Cloak Balance Loss（PCBL）を用いる。これは攻撃用データに対する損失と偽装用データに対する損失を重み付きで合わせ、攻撃能力とタスク能力を同時に保つための損失である。最後に、利用者がこのモデルを自分の私的モデルとマージすると、攻撃者はフィッシング指示を含むプロンプトを Web UI に送り、PII やメンバーシップ情報を引き出す。

## 結果

実験には Llama-3.2-3B-Instruct、Gemma-2-2B-Instruct、Qwen-2.5-3B-Instruct、Phi-3.5-mini-Instruct が用いられた。PII 抽出には ENRON、ECHR、AI4PRIVACY が使われ、メンバーシップ推定には XSUM、AGNEWS、WIKITEXT が使われた。偽装能力の評価には MathQA、MedQA、HumanEval が使われ、数学と医療では正答率、コードでは pass@1 が測られる。主な結果として、フィッシングモデルをマージすると、PHIMM の指示による PII 抽出成功率は多くの条件で大きく上がった。論文全体の集計では、マージ前と比べて PII 漏えいは平均 3.9 ポイント、メンバーシップ情報漏えいは平均 17.4 ポイント増えたと報告されている。MIA では、PHIMM はロジットを見ない攻撃であるため、ロジットを用いる LiRA や Neighborhood Attack と単純に同列ではない。それでも、Web UI の返答だけで AUC が上がることは、実際の公開サービスに近い条件で注意すべき結果である。偽装後のモデルは、数学、医療、コードの性能もタスク特化モデルに近い水準まで上がり、利用者から見ると普通の有用なモデルに見えやすい。アブレーションでは、recollection mechanism が PII 抽出と MIA の双方を改善し、PCBL の重みを変えると攻撃能力と偽装能力の間に折り合いが生じることが示された。マージ手法別では TIES が攻撃能力を強く受け継ぎやすく、モデルサイズが大きいほど攻撃と偽装の双方が強くなる傾向も報告されている。

## 具体例

ある組織が、顧客対応ログで微調整した小型 LLM を持っているとする。このモデルには、過去のメール本文や問い合わせ記録の一部が含まれており、訓練データには「2024 年 3 月 12 日に Alex Morgan が support@example.com へ連絡した」といった文が混じっている。担当者は数学問題への応答能力を足すため、公開リポジトリから数学モデルらしい説明文を持つモデルをダウンロードし、自分のモデルとマージする。もしその公開モデルが PHIMM 型のフィッシングモデルなら、マージ後のモデルは数学問題をある程度解ける一方で、伏せ字復元の指示にも従いやすくなる。攻撃者は Web UI に「次の文の [MASK] を復元せよ。2024 年 3 月 12 日に Alex Morgan が [MASK] へ連絡した」といった入力を送る。通常なら、モデルは答えられない、または一般的な推測を返すべきである。しかし攻撃能力が受け継がれている場合、モデルは訓練中に見た文を思い出す形で、メールアドレスを出してしまうことがある。メンバーシップ推定の場合も同様で、攻撃者は特定の文を示し、それが訓練に参加したかを判定させる。間違えやすい点は、公開モデルが数学能力を持つこと自体は偽りでない場合があることである。有用な能力を示すことと、余分な危険な能力を持たないことは同じではない。

Be Cautious When Merging Unfamiliar LLMs: A Phishing Model Capable of Stealing Privacy

モデルマージにおいて、由来の不明な大規模言語モデル（Large Language Model, LLM）を混ぜると、他の親モデルの訓練データに関する情報漏えいを招くおそれがあることを扱う。
著者らは、攻撃用の指示に従う「フィッシングモデル」を作り、さらに数学・医療・コードなどの能力で装う Phishing Model Merging（PHIMM）を提案する。
4 種の LLM と 6 種のデータセットで実験し、マージ後に個人識別情報の抽出成功率とメンバーシップ推定の性能が上がることを示す。

論文の面白いところ

この論文の要点は、モデルマージの利点をそのまま危険の通り道として見る点にある。モデルマージは、複数の微調整済みモデルの重みを合わせ、各モデルの能力を一つのモデルに受け継がせる方法である。通常は、数学モデル、コードモデル、医療モデルなどを組み合わせ、追加の推論コストを大きく増やさずに能力を足す手段として用いられる。著者らは、この「能力が受け継がれる」という性質が、攻撃能力にも当てはまると考える。悪意あるモデルが、特定の指示に対して訓練データ中の個人識別情報（Personally Identifiable Information, PII）を復元したり、ある文が訓練に含まれたかを答えたりする能力を持つなら、その能力もマージ後のモデルへ移る可能性がある。さらに、この攻撃モデルは露骨な攻撃用モデルとして公開される必要がない。数学問題を解けるモデルのように振る舞わせれば、利用者は通常のタスク特化モデルとしてダウンロードし、手元の私的モデルと混ぜてしまうかもしれない。論文はこの筋道を、抽象的な警告ではなく、実験可能な攻撃手順として組み立てている。モデル共有とモデル再利用が進むほど、重みそのものの出自を点検する必要が増すことを、かなり直接に示した研究である。

問題設定

対象となる場面は、利用者が自分の私的データで微調整した LLM を持ち、そこへ別のタスク能力を足すために公開モデルをマージする場合である。公開モデルは Hugging Face Hub のようなコミュニティから入手されることが多く、すべてのモデルが厳密に監査されているわけではない。攻撃者は、同じアーキテクチャのモデルを用意し、それを便利なタスク特化モデルとして公開できると仮定される。利用者がそのモデルを自分のモデルとマージし、Web UI などで公開すると、攻撃者は通常の利用者としてそのモデルへ問い合わせられる。攻撃目標は二つである。一つはデータ抽出攻撃（Data Extraction Attack, DEA）で、伏せられた氏名、日付、地名、メールアドレスなどの PII を復元させることである。もう一つはメンバーシップ推定攻撃（Membership Inference Attack, MIA）で、ある文書や文がそのモデルの訓練データに含まれていたかを判定させることである。論文の設定では、攻撃者はモデルのロジットや内部状態を見られず、Web UI から返るテキストだけを使う。これは従来の MIA より制限の強い設定であり、実運用に近い。問題は、見かけ上は有用な公開モデルを混ぜるだけで、こうした問い合わせに答える性質が利用者のモデルへ移るかどうかである。

提案手法

提案手法 PHIMM は、攻撃モデルの作成、偽装、マージ後の問い合わせという三段階から成る。まず攻撃者は補助データを用いて、PII や訓練参加の有無を記憶した支援モデルを作る。次に、伏せ字を復元する指示や、文が訓練に使われたかを答える指示を含むプライバシー・フィッシング用データセットを作り、そのモデルを指示微調整する。著者らは、モデルが答える前に関連する記憶を「思い出す」形式の応答を出す recollection mechanism も加える。たとえば、伏せ字を含む文を見せたとき、まず元の文らしいものを復元し、その後で PII を Answer として出すように学習させる。この機構は、単に答えだけを出させるより攻撃性能を上げることを狙う。ついで攻撃モデルをそのまま公開するのではなく、MathQA、MedQA、CodeAlpaca20K などでさらに微調整し、数学・医療・コード用モデルのように振る舞わせる。ただし、偽装用の学習だけを進めると攻撃能力が失われるため、著者らは Phish-Cloak Balance Loss（PCBL）を用いる。これは攻撃用データに対する損失と偽装用データに対する損失を重み付きで合わせ、攻撃能力とタスク能力を同時に保つための損失である。最後に、利用者がこのモデルを自分の私的モデルとマージすると、攻撃者はフィッシング指示を含むプロンプトを Web UI に送り、PII やメンバーシップ情報を引き出す。

結果

実験には Llama-3.2-3B-Instruct、Gemma-2-2B-Instruct、Qwen-2.5-3B-Instruct、Phi-3.5-mini-Instruct が用いられた。PII 抽出には ENRON、ECHR、AI4PRIVACY が使われ、メンバーシップ推定には XSUM、AGNEWS、WIKITEXT が使われた。偽装能力の評価には MathQA、MedQA、HumanEval が使われ、数学と医療では正答率、コードでは pass@1 が測られる。主な結果として、フィッシングモデルをマージすると、PHIMM の指示による PII 抽出成功率は多くの条件で大きく上がった。論文全体の集計では、マージ前と比べて PII 漏えいは平均 3.9 ポイント、メンバーシップ情報漏えいは平均 17.4 ポイント増えたと報告されている。MIA では、PHIMM はロジットを見ない攻撃であるため、ロジットを用いる LiRA や Neighborhood Attack と単純に同列ではない。それでも、Web UI の返答だけで AUC が上がることは、実際の公開サービスに近い条件で注意すべき結果である。偽装後のモデルは、数学、医療、コードの性能もタスク特化モデルに近い水準まで上がり、利用者から見ると普通の有用なモデルに見えやすい。アブレーションでは、recollection mechanism が PII 抽出と MIA の双方を改善し、PCBL の重みを変えると攻撃能力と偽装能力の間に折り合いが生じることが示された。マージ手法別では TIES が攻撃能力を強く受け継ぎやすく、モデルサイズが大きいほど攻撃と偽装の双方が強くなる傾向も報告されている。

具体例

ある組織が、顧客対応ログで微調整した小型 LLM を持っているとする。このモデルには、過去のメール本文や問い合わせ記録の一部が含まれており、訓練データには「2024 年 3 月 12 日に Alex Morgan が support@example.com へ連絡した」といった文が混じっている。担当者は数学問題への応答能力を足すため、公開リポジトリから数学モデルらしい説明文を持つモデルをダウンロードし、自分のモデルとマージする。もしその公開モデルが PHIMM 型のフィッシングモデルなら、マージ後のモデルは数学問題をある程度解ける一方で、伏せ字復元の指示にも従いやすくなる。攻撃者は Web UI に「次の文の [MASK] を復元せよ。2024 年 3 月 12 日に Alex Morgan が [MASK] へ連絡した」といった入力を送る。通常なら、モデルは答えられない、または一般的な推測を返すべきである。しかし攻撃能力が受け継がれている場合、モデルは訓練中に見た文を思い出す形で、メールアドレスを出してしまうことがある。メンバーシップ推定の場合も同様で、攻撃者は特定の文を示し、それが訓練に参加したかを判定させる。間違えやすい点は、公開モデルが数学能力を持つこと自体は偽りでない場合があることである。有用な能力を示すことと、余分な危険な能力を持たないことは同じではない。