Spectral Insights into Data-Oblivious Critical Layers in Large Language Models

生成日: 2026-05-24 02:20

# Spectral Insights into Data-Oblivious Critical Layers in Large Language Models

- LLM の各層で表現がどのように変わるかを、Centered Kernel Alignment（CKA）で測り、ファインチューニングで変わりやすい層を事前に見つける研究である。
- 重要層は特定のファインチューニングデータに強く依存せず、モデルごとに比較的一貫した「変化点」として現れる。
- 重要層だけを更新すると少ない計算でドメイン適応に近づき、逆にその層を凍結すると backdoor 攻撃の成功率を下げられる。

## Abstract（日本語訳）

大規模言語モデル（LLM）において、特徴表現が層をまたいでどのように変化するかを理解することは、その解釈可能性と頑健性を高めるうえで重要である。近年の研究は、特定の機能や振る舞いに結びつく重要層を同定してきたが、そうした試みは通常、ファインチューニング済みモデルに対するデータ依存の分析に頼っており、事後的な設定での利用に限られていた。これに対し、本論文では Centered Kernel Alignment（CKA）によって表現ダイナミクスを分析し、ファインチューニング前の LLM に内在する重要層を同定する、データに依存しない方法を導入する。表現空間に大きな変化を示す層は、ファインチューニング中にも最も影響を受ける層であり、この傾向は同一モデルではタスクをまたいで一貫して成り立つことを示す。さらにスペクトル分析により、これらの変化は上位主成分の変化によって生じており、それらの主成分は根拠から結論への意味的遷移を符号化していることが明らかになった。さらに、この知見を二つの実用的な場面に適用する。一つは効率的なドメイン適応であり、重要層をファインチューニングすることで、非重要層を用いる場合よりも大きな損失低下が得られる。もう一つは backdoor 防御であり、重要層を凍結することで攻撃成功率を最大 40% 低下させる。

## 論文の面白いところ

この論文の中心は、LLM の「どの層を触るべきか」を、ファインチューニングを実際に走らせる前のモデルから推定しようとする点にある。通常、層ごとの重要性を見るには、特定のタスクで学習させ、その後で各層の寄与を調べることが多い。しかしその方法では、得られた重要層がタスク固有なのか、モデル自体の性質なのかが分かりにくい。本論文は、ファインチューニング前のモデルの表現変化だけを見て、後に大きく更新される層を予測できると主張する。ここで使われる CKA は、層間の表現がどれほど似ているかを測る指標であり、値が低い箇所は近傍層との表現のずれが大きい。著者らは、そのずれが大きい層を change-point layer と呼び、これがファインチューニング時の critical layer と強く対応することを示す。さらに、単なる相関にとどまらず、主成分分析を用いて、その変化が上位の主成分、とくに第 2・第 3 主成分に関わることを調べている。解釈可能性の話としても、学習コスト削減や安全性の話としても使える、比較的筋の通った分析である。

## 問題設定

LLM は多くの transformer 層を積み重ねており、各層は入力文の表現を少しずつ変えていく。ファインチューニングでは全層を更新することもできるが、計算資源が限られる場合や、安全性を保ちたい場合には、どの層を更新し、どの層を固定するかが問題になる。既存研究には、ファインチューニング後のモデルを調べて重要層を探すものがあるが、それでは分析が事後的になる。さらに、特定のデータセットで見つかった層が、別のデータセットでも重要かどうかは明らかでない。本論文は、ファインチューニング前のモデルにすでに、タスクに依存しにくい重要層が存在するという仮説を置く。そのために、各層の表現と近傍層の表現を比較し、表現空間が急に変わる層を探す。対象モデルには LLaMA-2-7B-Chat、LLaMA-2-13B-Chat、LLaMA-3.1-8B-Instruct、LLaMA-3.2-3B-Instruct、Phi-3-Mini-128K-Instruct などが含まれる。評価には Alpaca、Dolly、GSM8K、BoolQ、OpenBookQA など複数のデータセットが使われている。

## 提案手法

手法は、まずファインチューニング済みモデルの層を、対応するファインチューニング前モデルの層で置き換え、そのときの損失増加を見るところから説明される。ある層の近傍を置き換えたときに損失が大きく増えるなら、その層群はファインチューニングで重要な役割を担っていたと考えられる。この手順により得られる critical layer の順位は、同一モデル内では異なるデータセット間でも高い Spearman 順位相関を示す。次に著者らは、ファインチューニング前モデルだけを用いて、各層の表現と近傍層の表現の CKA 類似度を計算する。近傍層との CKA が低い層は、表現が急に変わる change-point layer とみなされる。実験では、この CKA による層順位と、層置換で測った損失変化の順位が強い負の相関を示した。つまり、近傍層と似ていない層ほど、ファインチューニング後に元の層へ戻すと損失が大きくなる。さらに Singular Value Decomposition（SVD）と Canonical Correlation Analysis（CCA）を使い、この変化がどの主成分によって生じるかを調べている。

## 結果

LLaMA-2-7B-Chat では、複数データセットにわたり、おおむね 8 層目から 14 層目付近で表現の変化が大きく、15 層目以降では変化が小さくなる傾向が報告されている。ファインチューニング時の層置換損失と CKA による変化点の間には、多くのモデルとデータセットで -0.8 前後から -0.9 台の強い負の相関が見られる。一方、比較対象の LLaMA-2-7B-Base では相関が小さく、チャット化や instruction tuning を経たモデルでこの構造が明瞭になる可能性が示されている。スペクトル分析では、第 1 主成分は主に応答形式に関係し、第 2・第 3 主成分が根拠から結論へ移る意味的変化に関わると解釈されている。OpenBookQA の事例では、変化点層で上位 3 主成分を除くと、モデルが各選択肢の根拠を列挙するようになり、応答の内容が大きく変わった。応用実験では、Dolly と OpenBookQA に対するドメイン適応で、critical layer だけを更新する方が non-critical layer だけを更新するよりも低い test loss に達した。backdoor 防御では、重要層を凍結することで LLaMA2-7B-Chat の GPT-4 評価による攻撃成功率が 35.0% から 9.0% に下がった。Phi-3.0-Mini-128k-Instruct でも 74.3% から 42.7% へ下がっており、効果の大きさはモデルにより異なるが、方向は一貫している。

## 具体例

たとえば、OpenBookQA のような多肢選択問題で、「金属のスプーンを熱いスープに入れると、しばらくして持ち手も熱くなる。これは何によるものか」という入力があるとする。通常のモデルは、選択肢を読み、伝導という結論を短く答えるか、根拠を付けて答える。著者らの分析では、この応答がモデル内部のどの層でどのように変わるかを見る。CKA で見つけた変化点層に介入し、上位主成分の一部を取り除くと、第 1 主成分を除いた場合には「Sure, ...」のような表面的な応答形式が変わりやすい。第 2・第 3 主成分まで取り除くと、モデルは単に答えを出すのではなく、各選択肢がなぜ正しいか、または誤りかを述べる形に変わる。期待される出力は、最終的には「熱伝導」を選ぶ回答であるが、その途中の根拠の出し方が変化する。間違えやすい点は、表面上の形式変化と、結論に至る意味的な処理の変化を同じものとして扱ってしまうことである。本論文は、この二つを主成分の違いとして分けて観察しようとしている。

Spectral Insights into Data-Oblivious Critical Layers in Large Language Models

LLM の各層で表現がどのように変わるかを、Centered Kernel Alignment（CKA）で測り、ファインチューニングで変わりやすい層を事前に見つける研究である。
重要層は特定のファインチューニングデータに強く依存せず、モデルごとに比較的一貫した「変化点」として現れる。
重要層だけを更新すると少ない計算でドメイン適応に近づき、逆にその層を凍結すると backdoor 攻撃の成功率を下げられる。

Abstract（日本語訳）

大規模言語モデル（LLM）において、特徴表現が層をまたいでどのように変化するかを理解することは、その解釈可能性と頑健性を高めるうえで重要である。近年の研究は、特定の機能や振る舞いに結びつく重要層を同定してきたが、そうした試みは通常、ファインチューニング済みモデルに対するデータ依存の分析に頼っており、事後的な設定での利用に限られていた。これに対し、本論文では Centered Kernel Alignment（CKA）によって表現ダイナミクスを分析し、ファインチューニング前の LLM に内在する重要層を同定する、データに依存しない方法を導入する。表現空間に大きな変化を示す層は、ファインチューニング中にも最も影響を受ける層であり、この傾向は同一モデルではタスクをまたいで一貫して成り立つことを示す。さらにスペクトル分析により、これらの変化は上位主成分の変化によって生じており、それらの主成分は根拠から結論への意味的遷移を符号化していることが明らかになった。さらに、この知見を二つの実用的な場面に適用する。一つは効率的なドメイン適応であり、重要層をファインチューニングすることで、非重要層を用いる場合よりも大きな損失低下が得られる。もう一つは backdoor 防御であり、重要層を凍結することで攻撃成功率を最大 40% 低下させる。

論文の面白いところ

この論文の中心は、LLM の「どの層を触るべきか」を、ファインチューニングを実際に走らせる前のモデルから推定しようとする点にある。通常、層ごとの重要性を見るには、特定のタスクで学習させ、その後で各層の寄与を調べることが多い。しかしその方法では、得られた重要層がタスク固有なのか、モデル自体の性質なのかが分かりにくい。本論文は、ファインチューニング前のモデルの表現変化だけを見て、後に大きく更新される層を予測できると主張する。ここで使われる CKA は、層間の表現がどれほど似ているかを測る指標であり、値が低い箇所は近傍層との表現のずれが大きい。著者らは、そのずれが大きい層を change-point layer と呼び、これがファインチューニング時の critical layer と強く対応することを示す。さらに、単なる相関にとどまらず、主成分分析を用いて、その変化が上位の主成分、とくに第 2・第 3 主成分に関わることを調べている。解釈可能性の話としても、学習コスト削減や安全性の話としても使える、比較的筋の通った分析である。

問題設定

LLM は多くの transformer 層を積み重ねており、各層は入力文の表現を少しずつ変えていく。ファインチューニングでは全層を更新することもできるが、計算資源が限られる場合や、安全性を保ちたい場合には、どの層を更新し、どの層を固定するかが問題になる。既存研究には、ファインチューニング後のモデルを調べて重要層を探すものがあるが、それでは分析が事後的になる。さらに、特定のデータセットで見つかった層が、別のデータセットでも重要かどうかは明らかでない。本論文は、ファインチューニング前のモデルにすでに、タスクに依存しにくい重要層が存在するという仮説を置く。そのために、各層の表現と近傍層の表現を比較し、表現空間が急に変わる層を探す。対象モデルには LLaMA-2-7B-Chat、LLaMA-2-13B-Chat、LLaMA-3.1-8B-Instruct、LLaMA-3.2-3B-Instruct、Phi-3-Mini-128K-Instruct などが含まれる。評価には Alpaca、Dolly、GSM8K、BoolQ、OpenBookQA など複数のデータセットが使われている。

提案手法

手法は、まずファインチューニング済みモデルの層を、対応するファインチューニング前モデルの層で置き換え、そのときの損失増加を見るところから説明される。ある層の近傍を置き換えたときに損失が大きく増えるなら、その層群はファインチューニングで重要な役割を担っていたと考えられる。この手順により得られる critical layer の順位は、同一モデル内では異なるデータセット間でも高い Spearman 順位相関を示す。次に著者らは、ファインチューニング前モデルだけを用いて、各層の表現と近傍層の表現の CKA 類似度を計算する。近傍層との CKA が低い層は、表現が急に変わる change-point layer とみなされる。実験では、この CKA による層順位と、層置換で測った損失変化の順位が強い負の相関を示した。つまり、近傍層と似ていない層ほど、ファインチューニング後に元の層へ戻すと損失が大きくなる。さらに Singular Value Decomposition（SVD）と Canonical Correlation Analysis（CCA）を使い、この変化がどの主成分によって生じるかを調べている。

結果

LLaMA-2-7B-Chat では、複数データセットにわたり、おおむね 8 層目から 14 層目付近で表現の変化が大きく、15 層目以降では変化が小さくなる傾向が報告されている。ファインチューニング時の層置換損失と CKA による変化点の間には、多くのモデルとデータセットで -0.8 前後から -0.9 台の強い負の相関が見られる。一方、比較対象の LLaMA-2-7B-Base では相関が小さく、チャット化や instruction tuning を経たモデルでこの構造が明瞭になる可能性が示されている。スペクトル分析では、第 1 主成分は主に応答形式に関係し、第 2・第 3 主成分が根拠から結論へ移る意味的変化に関わると解釈されている。OpenBookQA の事例では、変化点層で上位 3 主成分を除くと、モデルが各選択肢の根拠を列挙するようになり、応答の内容が大きく変わった。応用実験では、Dolly と OpenBookQA に対するドメイン適応で、critical layer だけを更新する方が non-critical layer だけを更新するよりも低い test loss に達した。backdoor 防御では、重要層を凍結することで LLaMA2-7B-Chat の GPT-4 評価による攻撃成功率が 35.0% から 9.0% に下がった。Phi-3.0-Mini-128k-Instruct でも 74.3% から 42.7% へ下がっており、効果の大きさはモデルにより異なるが、方向は一貫している。

具体例

たとえば、OpenBookQA のような多肢選択問題で、「金属のスプーンを熱いスープに入れると、しばらくして持ち手も熱くなる。これは何によるものか」という入力があるとする。通常のモデルは、選択肢を読み、伝導という結論を短く答えるか、根拠を付けて答える。著者らの分析では、この応答がモデル内部のどの層でどのように変わるかを見る。CKA で見つけた変化点層に介入し、上位主成分の一部を取り除くと、第 1 主成分を除いた場合には「Sure, ...」のような表面的な応答形式が変わりやすい。第 2・第 3 主成分まで取り除くと、モデルは単に答えを出すのではなく、各選択肢がなぜ正しいか、または誤りかを述べる形に変わる。期待される出力は、最終的には「熱伝導」を選ぶ回答であるが、その途中の根拠の出し方が変化する。間違えやすい点は、表面上の形式変化と、結論に至る意味的な処理の変化を同じものとして扱ってしまうことである。本論文は、この二つを主成分の違いとして分けて観察しようとしている。