Learning to Rewrite: Generalized LLM-Generated Text Detection
- 大規模言語モデル(Large Language Model; LLM)が生成した文章を、書き換え後の変化量から検出する手法である。
- Learning2Rewrite(L2R)は、人間の文章は大きく書き換え、LLM 生成文はあまり変えないように書き換えモデルを訓練する。
- 21 分野、4 種類の生成モデルを用いた実験で、既存の検出器より高い AUROC を示し、分野外データや攻撃的な書き換えにも比較的よく耐えた。
論文の面白いところ
この論文は、LLM 生成文を直接分類するのではなく、「書き換えられ方」を手がかりにする。着眼点は、LLM が自分に似た文を与えられると、あまり手を入れずに返しやすいという経験的な性質である。既存の RAIDAR も同じ方向の検出法を用いるが、分野ごとに書き換え量の分布が変わるため、同じしきい値を使いにくい。L2R はこの弱点を、書き換えモデルそのものを訓練することで補う。人間の文では編集距離が大きくなり、LLM 生成文では編集距離が小さくなるように、Llama-3-8B-Instruct を QLoRA で調整する。検出の根拠が、入力文と書き換え文の差分として見える点も扱いやすい。確率曲率や内部ロジットに頼る方法と異なり、商用モデルの内部状態を必要としない。ただし、実際に一度文章を生成し直すため、推論は軽くない。
問題設定
対象は、与えられた英語の段落が人間によって書かれたものか、LLM によって生成または書き換えられたものかを判定する問題である。LLM 生成文の検出器は、訓練時と同じ分野では高い性能を示しても、未知の分野や未知の生成モデルに移ると性能が落ちやすい。文章の話題、長さ、生成プロンプト、デコーディング方法が変わると、表面的な特徴も変わるからである。Fast-DetectGPT や Ghostbuster のような方法は有効な場面があるが、確率情報や統計的特徴に依存するため、条件が変わると不安定になりうる。書き換え量にもとづく方法は、より一般的な信号をとらえる可能性があるが、素の書き換えモデルでは分野ごとのしきい値がそろわない。論文は、このしきい値の揺れを小さくすることを中心課題とする。評価では通常の同分布テストに加え、M4 データセットによる分布外評価と、検出回避を意図した二種類の攻撃も扱う。
提案手法
L2R は、入力文をいったん書き換え、その前後の編集距離を計算して判定に用いる。編集距離には、挿入、削除、置換の回数にもとづく正規化 Levenshtein 距離を用いる。訓練時には、人間の文に対しては書き換えモデルの損失を大きくし、元文から離れた出力を促す。反対に、LLM 生成文に対しては損失を小さくし、元文に近い出力を促す。編集距離は微分できないため、モデルが元文を出力する確率に対応する交差エントロピー損失を代理目的として使う。さらに、過剰に書き換えるだけのモデルにならないよう、較正損失を導入する。これは、すでにしきい値の正しい側にある例では勾配を止め、境界付近の例だけで学習を進める仕組みである。データは 21 分野から集めた人間の段落に、GPT-4o、GPT-3.5-Turbo、Gemini 1.5 Pro、Llama-3-70B-Instruct による対応文を作って構成する。生成時のプロンプトも 200 種類用意し、単一の言い換え指示だけに依存しないようにしている。
結果
21 分野の同分布評価では、L2R の平均 AUROC は 0.9009 であった。比較対象の Fast-DetectGPT は 0.6705、Ghostbuster は 0.7053、Gemini 書き換え版 RAIDAR は 0.7566、Llama 書き換え版 RAIDAR は 0.7970 である。分野別には、法律文書で Fast-DetectGPT を下回り、創作文で Ghostbuster を下回る例があった。法律文書は人間の文でも形式が固定されやすく、創作文は LLM 文でも大きく言い換えられやすいため、この手法に不利な分野と考えられる。M4 を用いた分布外評価では、通常設定の L2R は AUROC 0.6561、LoRA の訓練パラメータを減らした L2R は 0.7398 であった。直接分類用に Llama を微調整した方法は、同分布では 0.9774 と高いが、分布外では 0.1426 まで落ちた。これは、単なる分類器が訓練分布に強く適合しやすいことを示す。攻撃評価でも L2R は、単語順を少し乱す decoherence attack で 0.8746、検出回避を狙った rewrite attack で 0.8927 の AUROC を得た。較正損失は平均 AUROC を 0.8555 から 0.9009 に上げ、過学習を抑える役割を果たした。
具体例
たとえば、入力として「貧困は人類史上もっとも低い水準にあり、今後も貧困との戦いで着実な成功が続くだろう」という短い教育用の段落が与えられたとする。L2R はまず、訓練済みの書き換えモデルに「この文を整えてください」という趣旨の指示とともに入力文を渡す。入力が人間の文章であれば、モデルは表現を大きく変え、貧困率の低下、継続的な取り組み、将来の見通しを別の構文で述べ直す傾向を持つよう訓練されている。その結果、元の文と書き換え文の間の挿入、削除、置換が多くなり、編集距離は大きくなる。入力が GPT-4o などの LLM が作った滑らかな段落であれば、モデルは元の語順や表現をあまり変えず、編集距離は小さくなることが期待される。検出器はこの編集距離をしきい値と比べ、距離が小さいものを LLM 生成文寄り、大きいものを人間文寄りとして扱う。間違えやすいのは、法律文書のように人間が書いても定型的で書き換えにくい文である。この場合、編集距離が小さくなり、LLM 生成文と誤判定されるおそれがある。反対に、創作文のように LLM 生成文でも容易に別表現へ変えられる文では、編集距離が大きくなり、人間文に近く見えることがある。