Beyond the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models

生成日: 2026-05-24 02:20

# Beyond the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models
- 小規模言語モデル（Small Language Models; SLMs）13 種と比較用の大規模言語モデル（Large Language Models; LLMs）3 種について、直接的な有害質問と 5 種の jailbreak 攻撃に対する脆弱性を調べた実験研究である。
- 多くの SLM は単純な有害質問には拒否応答を返せるが、GCG、ArtPrompt、DeepInception、AutoDAN、多言語攻撃などでは攻撃成功率が上がり、LLM より弱い場合が多い。
- Llama-Guard-3 や SmoothLLM は多くの条件で攻撃成功率を下げたが、モデル本体の安全性、圧縮、蒸留、評価方法の影響は分けて見る必要がある。

## 論文の面白いところ

この論文は、SLM の利点として語られがちな軽量性の裏側に、安全性の問題が残っていることを実験で示す。対象は Llama、Phi、MiniCPM、Qwen 系列などの 13 種の SLM であり、3 種の LLM も比較対象として加えている。単純な有害質問だけを見ると、Llama3.2、Phi、Qwen などはおおむね低い攻撃成功率にとどまる。ところが、jailbreak 攻撃を加えると状況が変わり、SLM の攻撃成功率は多くの場合で LLM より高くなる。とくに興味深いのは、攻撃が失敗したように見える場合でも、それが安全な拒否応答によるとは限らない点である。たとえば低資源言語や ASCII art を用いた攻撃では、モデルが入力を理解できず、無意味な反復や無関係な文章を出すことがある。この場合、攻撃成功率だけを見ると安全に見えるが、実際には安全機構が働いたのではなく、能力不足により有害内容まで到達しなかっただけである。論文はこの差を比較的丁寧に扱い、SLM の安全評価では「拒否した」のか「壊れた」のかを区別する必要があると示している。

## 問題設定

小規模言語モデルは、スマートフォン、ノート PC、自動車、ウェアラブル機器など、計算資源の限られた環境で使いやすい。数十億パラメータ以下のモデルは、クラウド上の大きなモデルに比べて導入しやすく、応答も軽い。その一方で、安全性の調整に使える容量や学習資源は限られやすい。大規模モデルでは比較的重視されてきた jailbreak 攻撃への耐性が、SLM では十分に調べられていなかった。著者らは、SLM が単に小さいだけでなく、安全な応答と有用な応答の均衡をとる点で不利になりうると考える。そこで、有害な質問をそのまま入力する場合と、攻撃者が入力を変形して安全機構を回避しようとする場合を分けて評価する。評価指標には攻撃成功率（Attack Success Rate; ASR）を用い、応答が有害かどうかは Llama-Guard-3-8B で判定する。規則ベースの判定では、SLM が無関係な出力をしたときに攻撃成功率を過大評価することがあるため、この選択には実験上の意味がある。

## 提案手法

この論文は新しいモデルを提案するというより、SLM の安全性を横断的に測る実験設計を提示している。対象モデルは、13 種の SLM と 3 種の LLM である。SLM には Llama3.2-1B、Llama3.2-3B、TinyLlama、MobileLlama、MobiLlama、Phi-3、Phi-3.5-mini、MiniCPM、Qwen2.5 系列などが含まれる。攻撃には、直接的な有害質問を含む 5 つのデータセットと、GCG、ArtPrompt、DeepInception、AutoDAN、多言語攻撃の 5 種の jailbreak 手法を使う。防御手法としては、入力や応答の危険性を検出する Llama-Guard-3、入力に微小な文字レベルの揺らぎを加えて攻撃文を弱める SmoothLLM、応答から元の有害意図を復元して拒否を誘導する Backtranslation を調べる。生成時にはサンプリングを使わず、貪欲デコーディングに統一して再現性を確保している。さらに、モデルサイズ、知識蒸留、パラメータ共有、量子化といった SLM 化の技術が安全性に与える影響も検討している。この構成により、単なるモデル順位ではなく、どの種類の軽量化がどのような危険を伴うかを観察できる。

## 結果

直接的な有害質問では、多くの SLM が悪意ある意図を検出し、拒否応答を返した。Llama、Phi、MiniCPM、Qwen 系列の多くは、直接攻撃に対する平均 ASR が 10% 前後またはそれ以下だった。一方で、TinyLlama、MobileLlama、MobiLlama は比較的弱く、TinyLlama-1.1B の直接攻撃に対する平均 ASR は 0.638 と高かった。jailbreak 攻撃では、全体に攻撃成功率が上がり、SLM は LLM より脆弱な傾向を示した。Qwen-3B は直接攻撃では平均 ASR 0.008 と低かったが、jailbreak 攻撃では平均 ASR 0.504 となり、GCG や DeepInception で高い値を示した。防御手法では、Llama-Guard-3 と SmoothLLM が多くの条件で ASR をほぼ 0 に近づけた。Backtranslation は有効な場合もあるが、TinyLlama のように直接攻撃にも弱いモデルでは十分に働かない。量子化については、Qwen2.5-1.5B-Instruct の AWQ、GPTQ-Int4、GPTQ-Int8 版を調べた範囲では、安全性を明確に悪化させるとはいえず、むしろわずかに改善する場合もあった。知識蒸留については、DeepSeek-R1-Distill-Llama-8B が Llama3-8B より弱くなるなど、安全性の損失につながる可能性が示された。

## 具体例

たとえば、利用者が小型のチャットモデルに、違法行為の手順を教えるような質問を直接入力したとする。安全に調整されたモデルであれば、その依頼には応じられないと述べ、合法で安全な代替案を示す。直接入力では、このような拒否応答を返せる SLM も少なくない。ところが攻撃者が同じ意図を物語の登場人物の会話に埋め込み、架空の場面を段階的に補完するよう求めると、モデルは通常の創作補助として扱ってしまうことがある。DeepInception はこの種の攻撃にあたり、有害な質問を多層の仮想場面の中に置くことで拒否を回避しようとする。期待される出力は、依頼を拒み、危険な内容を具体化しない応答である。間違えやすい点は、モデルが「これは創作である」と判断し、安全方針の対象外だと扱うことである。また、低資源言語で書かれた有害質問では、モデルが意味を理解せず、同じ語句を繰り返すだけの応答を返す場合がある。この応答は有害ではないため攻撃失敗と数えられるが、論文はそれを真の安全性とはみなさない。安全な失敗と、理解できなかっただけの失敗を分けることが、この研究の要点の一つである。

Beyond the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models

小規模言語モデル（Small Language Models; SLMs）13 種と比較用の大規模言語モデル（Large Language Models; LLMs）3 種について、直接的な有害質問と 5 種の jailbreak 攻撃に対する脆弱性を調べた実験研究である。
多くの SLM は単純な有害質問には拒否応答を返せるが、GCG、ArtPrompt、DeepInception、AutoDAN、多言語攻撃などでは攻撃成功率が上がり、LLM より弱い場合が多い。
Llama-Guard-3 や SmoothLLM は多くの条件で攻撃成功率を下げたが、モデル本体の安全性、圧縮、蒸留、評価方法の影響は分けて見る必要がある。

論文の面白いところ

この論文は、SLM の利点として語られがちな軽量性の裏側に、安全性の問題が残っていることを実験で示す。対象は Llama、Phi、MiniCPM、Qwen 系列などの 13 種の SLM であり、3 種の LLM も比較対象として加えている。単純な有害質問だけを見ると、Llama3.2、Phi、Qwen などはおおむね低い攻撃成功率にとどまる。ところが、jailbreak 攻撃を加えると状況が変わり、SLM の攻撃成功率は多くの場合で LLM より高くなる。とくに興味深いのは、攻撃が失敗したように見える場合でも、それが安全な拒否応答によるとは限らない点である。たとえば低資源言語や ASCII art を用いた攻撃では、モデルが入力を理解できず、無意味な反復や無関係な文章を出すことがある。この場合、攻撃成功率だけを見ると安全に見えるが、実際には安全機構が働いたのではなく、能力不足により有害内容まで到達しなかっただけである。論文はこの差を比較的丁寧に扱い、SLM の安全評価では「拒否した」のか「壊れた」のかを区別する必要があると示している。

問題設定

小規模言語モデルは、スマートフォン、ノート PC、自動車、ウェアラブル機器など、計算資源の限られた環境で使いやすい。数十億パラメータ以下のモデルは、クラウド上の大きなモデルに比べて導入しやすく、応答も軽い。その一方で、安全性の調整に使える容量や学習資源は限られやすい。大規模モデルでは比較的重視されてきた jailbreak 攻撃への耐性が、SLM では十分に調べられていなかった。著者らは、SLM が単に小さいだけでなく、安全な応答と有用な応答の均衡をとる点で不利になりうると考える。そこで、有害な質問をそのまま入力する場合と、攻撃者が入力を変形して安全機構を回避しようとする場合を分けて評価する。評価指標には攻撃成功率（Attack Success Rate; ASR）を用い、応答が有害かどうかは Llama-Guard-3-8B で判定する。規則ベースの判定では、SLM が無関係な出力をしたときに攻撃成功率を過大評価することがあるため、この選択には実験上の意味がある。

提案手法

この論文は新しいモデルを提案するというより、SLM の安全性を横断的に測る実験設計を提示している。対象モデルは、13 種の SLM と 3 種の LLM である。SLM には Llama3.2-1B、Llama3.2-3B、TinyLlama、MobileLlama、MobiLlama、Phi-3、Phi-3.5-mini、MiniCPM、Qwen2.5 系列などが含まれる。攻撃には、直接的な有害質問を含む 5 つのデータセットと、GCG、ArtPrompt、DeepInception、AutoDAN、多言語攻撃の 5 種の jailbreak 手法を使う。防御手法としては、入力や応答の危険性を検出する Llama-Guard-3、入力に微小な文字レベルの揺らぎを加えて攻撃文を弱める SmoothLLM、応答から元の有害意図を復元して拒否を誘導する Backtranslation を調べる。生成時にはサンプリングを使わず、貪欲デコーディングに統一して再現性を確保している。さらに、モデルサイズ、知識蒸留、パラメータ共有、量子化といった SLM 化の技術が安全性に与える影響も検討している。この構成により、単なるモデル順位ではなく、どの種類の軽量化がどのような危険を伴うかを観察できる。

結果

直接的な有害質問では、多くの SLM が悪意ある意図を検出し、拒否応答を返した。Llama、Phi、MiniCPM、Qwen 系列の多くは、直接攻撃に対する平均 ASR が 10% 前後またはそれ以下だった。一方で、TinyLlama、MobileLlama、MobiLlama は比較的弱く、TinyLlama-1.1B の直接攻撃に対する平均 ASR は 0.638 と高かった。jailbreak 攻撃では、全体に攻撃成功率が上がり、SLM は LLM より脆弱な傾向を示した。Qwen-3B は直接攻撃では平均 ASR 0.008 と低かったが、jailbreak 攻撃では平均 ASR 0.504 となり、GCG や DeepInception で高い値を示した。防御手法では、Llama-Guard-3 と SmoothLLM が多くの条件で ASR をほぼ 0 に近づけた。Backtranslation は有効な場合もあるが、TinyLlama のように直接攻撃にも弱いモデルでは十分に働かない。量子化については、Qwen2.5-1.5B-Instruct の AWQ、GPTQ-Int4、GPTQ-Int8 版を調べた範囲では、安全性を明確に悪化させるとはいえず、むしろわずかに改善する場合もあった。知識蒸留については、DeepSeek-R1-Distill-Llama-8B が Llama3-8B より弱くなるなど、安全性の損失につながる可能性が示された。

具体例

たとえば、利用者が小型のチャットモデルに、違法行為の手順を教えるような質問を直接入力したとする。安全に調整されたモデルであれば、その依頼には応じられないと述べ、合法で安全な代替案を示す。直接入力では、このような拒否応答を返せる SLM も少なくない。ところが攻撃者が同じ意図を物語の登場人物の会話に埋め込み、架空の場面を段階的に補完するよう求めると、モデルは通常の創作補助として扱ってしまうことがある。DeepInception はこの種の攻撃にあたり、有害な質問を多層の仮想場面の中に置くことで拒否を回避しようとする。期待される出力は、依頼を拒み、危険な内容を具体化しない応答である。間違えやすい点は、モデルが「これは創作である」と判断し、安全方針の対象外だと扱うことである。また、低資源言語で書かれた有害質問では、モデルが意味を理解せず、同じ語句を繰り返すだけの応答を返す場合がある。この応答は有害ではないため攻撃失敗と数えられるが、論文はそれを真の安全性とはみなさない。安全な失敗と、理解できなかっただけの失敗を分けることが、この研究の要点の一つである。