Beyond Demographics: Fine-tuning Large Language Models to Predict Individuals' Subjective Text Perceptions

生成日: 2026-05-24 02:20

# Beyond Demographics: Fine-tuning Large Language Models to Predict Individuals' Subjective Text Perceptions

- LLM に「年齢・性別・人種・教育」などの属性を与えれば、主観的なアノテーションの違いを再現できるのかを検証した論文である。
- ファインチューニング後は属性付き入力で性能が上がるが、その多くは属性から社会集団の傾向を学んだためではなく、個々のアノテータを見分ける手がかりとして属性を使ったためである。
- 未知のアノテータに対しては、属性も ID も本文のみのベースラインをほとんど上回らず、LLM を人口統計的な「人間の代替」として使うことには慎重さが要る。

## Abstract（日本語訳）

人々は主観的な問いへのアノテーションにおいて自然にばらつきを示し、その一部はその人の社会人口統計的特徴によるものと考えられている。LLM もデータのラベル付けに用いられてきたが、近年の研究は、社会人口統計的属性をプロンプトに含めた場合にモデルの性能が低いことを示しており、モデルが内在的にもつ社会人口統計的知識には限りがあることを示唆している。本論文では、LLM を、アノテータのばらつきを正確に扱う社会人口統計モデルとして訓練できるかを問う。標準化された社会人口統計情報を備えた 5 つのタスクからなるキュレーション済みデータセットを用い、訓練によって社会人口統計的プロンプティングの性能は向上するものの、その性能向上の大部分は、モデルが社会人口統計的な振る舞いではなく、アノテータ固有の振る舞いを学ぶことによるものであることを示す。全タスクを通じて、結果は、モデルが社会人口統計情報とアノテーションとの意味のある結びつきをほとんど学んでいないことを示しており、社会人口統計的なばらつきや振る舞いをシミュレートするために LLM を用いる現在の方法に疑問を投げかける。

## 論文の面白いところ

この論文の中心は、LLM に人口統計的な属性を与えると「その集団らしい判断」を出せる、という素朴な期待を実験で分解した点にある。主観的 NLP タスクでは、正解が一つに定まらないことが多い。失礼さ、不快さ、安全性、感情の読み取りは、同じ文を見ても評価者によって変わりうる。そこで近年は、アノテータの属性をプロンプトに入れて、LLM に特定の社会集団の判断を模倣させる試みがある。本論文は、その発想をゼロショットではなくファインチューニングまで進め、それでも何を学んでいるのかを検査している。結果はやや手厳しい。属性を入れると一見よくなるが、よくなるのは、属性の組み合わせが実質的に個人 ID のように働く場合である。つまり、モデルは「この社会集団はこう判断しやすい」と一般化しているというより、「この特徴列を持つ既知の評価者は以前こう付けた」と覚えている可能性が高い。LLM による合成アノテーションや社会調査シミュレーションを考えるうえで、かなり実務的な警告になっている。

## 問題設定

NLP の多くのモデルはラベル付きデータで学習するが、人間のラベルは常に一致するわけではない。不一致には、単純なミスだけでなく、価値観、経験、文脈の読み方の違いが含まれる。従来の多数決ラベルは、このばらつきを一つの正解に押し込めがちである。一方で、主観的なタスクでは、ばらつきそのものが信号になることがある。たとえば、ある Reddit コメントを不快と見るかどうか、あるメールを丁寧と見るかどうかは、評価者の属性や個人の基準に影響される。本論文は、LLM がこのばらつきをどの程度モデル化できるかを、個人レベルの予測問題として扱う。入力はテキストに加えて、アノテータの属性または一意な ID を含む。出力は、そのアノテータが付けるであろう 3 段階または 5 段階のラベルである。評価では、同じテキストに対する集約ラベルではなく、個々のアノテータの個別ラベルを予測できるかを見る。

## 提案手法

著者らは DEMO という実験用データセットを構成した。これは intimacy、offensiveness、politeness、safety、sentiment の 5 種の主観的分類タスクを統合したもので、21,632 件のテキスト、2,614 人のアノテータ、147,648 件のアノテーションを含む。各データセットで共通して得られる属性として、年齢、性別、人種、教育を標準化して用いる。モデルには Llama 3 8B のベースモデルを使い、報酬モデルで使われるような prediction head を付けて、LoRA によりファインチューニングする。入力形式は、本文のみ、本文と属性、本文とアノテータ ID、本文と ID と属性の四つを主に比べる。さらに、ゼロショットの社会人口統計的プロンプティングもベースラインとして置く。データ分割には二つの設定がある。一つはテキスト単位の分割で、同じアノテータが訓練・検証・テストにまたがって現れうる。もう一つはアノテータ単位の分割で、テストに出るアノテータは訓練時に一度も現れない。この二つを分けたことにより、既知の評価者を覚えられるかと、未知の評価者へ一般化できるかを区別している。

## 結果

テキスト単位の分割では、属性を加えてファインチューニングしたモデルは、本文のみのモデルやゼロショットのプロンプティングよりよい結果を示す。ここだけを見ると、LLM が属性と評価傾向の関係を学んだように見える。しかし、アノテータ ID を与えたモデルはそれより大きく改善し、ID と属性を同時に与えても ID のみから大きくは伸びない。これは、個人を識別できる情報のほうが、属性一般より強いことを示す。アノテータ単位の分割では、様相が変わる。未知のアノテータに対しては、属性を加えても本文のみのベースラインをほとんど上回らない。さらに著者らは、属性の組み合わせが一人にしか現れない「unique」な場合と、多くの人に共有される「frequent」な場合を分けて調べた。性能向上は unique な属性組み合わせに偏っており、frequent な属性では一貫した改善が小さい。したがって、属性は社会集団の一般的傾向というより、既知の個人を指す代理 ID として働いていると解釈される。なお、ID を用いたモデルは、評価者間の不一致が大きい事例のラベル分布をよりよく近似する傾向も示した。

## 具体例

たとえば、入力テキストが「Hey, come to the office, please」という短いメールで、タスクが丁寧さを 1 から 5 で評価するものだとする。本文のみのモデルは、この文面そのものから、命令調だが please が付いているので中程度からやや丁寧、といった一般的な予測を行う。属性付きモデルには、「55 歳から 64 歳の女性、大学卒」などの情報も与えられる。期待される出力は、その属性を持つ評価者が付けそうな丁寧さのスコアである。しかし、この論文の結果によれば、同じ属性を持つ未知の人に対して、モデルが安定してよい予測を出せるとは限らない。もし訓練データ中でその属性の組み合わせを持つ人が一人だけなら、モデルは社会集団の傾向ではなく、その一人の過去の採点癖を覚えている可能性がある。たとえば、その人が短い依頼文をいつも低めに評価していれば、モデルも同じ方向に寄せる。別の同属性の人が、同じ文を自然で丁寧だと見る場合には、予測は外れやすい。したがって、この種のモデルを使うなら、属性だけで人間集団を代表させるのではなく、個別のアノテーション例が何を反映しているのかを確認する必要がある。

Beyond Demographics: Fine-tuning Large Language Models to Predict Individuals' Subjective Text Perceptions

LLM に「年齢・性別・人種・教育」などの属性を与えれば、主観的なアノテーションの違いを再現できるのかを検証した論文である。
ファインチューニング後は属性付き入力で性能が上がるが、その多くは属性から社会集団の傾向を学んだためではなく、個々のアノテータを見分ける手がかりとして属性を使ったためである。
未知のアノテータに対しては、属性も ID も本文のみのベースラインをほとんど上回らず、LLM を人口統計的な「人間の代替」として使うことには慎重さが要る。

Abstract（日本語訳）

人々は主観的な問いへのアノテーションにおいて自然にばらつきを示し、その一部はその人の社会人口統計的特徴によるものと考えられている。LLM もデータのラベル付けに用いられてきたが、近年の研究は、社会人口統計的属性をプロンプトに含めた場合にモデルの性能が低いことを示しており、モデルが内在的にもつ社会人口統計的知識には限りがあることを示唆している。本論文では、LLM を、アノテータのばらつきを正確に扱う社会人口統計モデルとして訓練できるかを問う。標準化された社会人口統計情報を備えた 5 つのタスクからなるキュレーション済みデータセットを用い、訓練によって社会人口統計的プロンプティングの性能は向上するものの、その性能向上の大部分は、モデルが社会人口統計的な振る舞いではなく、アノテータ固有の振る舞いを学ぶことによるものであることを示す。全タスクを通じて、結果は、モデルが社会人口統計情報とアノテーションとの意味のある結びつきをほとんど学んでいないことを示しており、社会人口統計的なばらつきや振る舞いをシミュレートするために LLM を用いる現在の方法に疑問を投げかける。

論文の面白いところ

この論文の中心は、LLM に人口統計的な属性を与えると「その集団らしい判断」を出せる、という素朴な期待を実験で分解した点にある。主観的 NLP タスクでは、正解が一つに定まらないことが多い。失礼さ、不快さ、安全性、感情の読み取りは、同じ文を見ても評価者によって変わりうる。そこで近年は、アノテータの属性をプロンプトに入れて、LLM に特定の社会集団の判断を模倣させる試みがある。本論文は、その発想をゼロショットではなくファインチューニングまで進め、それでも何を学んでいるのかを検査している。結果はやや手厳しい。属性を入れると一見よくなるが、よくなるのは、属性の組み合わせが実質的に個人 ID のように働く場合である。つまり、モデルは「この社会集団はこう判断しやすい」と一般化しているというより、「この特徴列を持つ既知の評価者は以前こう付けた」と覚えている可能性が高い。LLM による合成アノテーションや社会調査シミュレーションを考えるうえで、かなり実務的な警告になっている。

問題設定

NLP の多くのモデルはラベル付きデータで学習するが、人間のラベルは常に一致するわけではない。不一致には、単純なミスだけでなく、価値観、経験、文脈の読み方の違いが含まれる。従来の多数決ラベルは、このばらつきを一つの正解に押し込めがちである。一方で、主観的なタスクでは、ばらつきそのものが信号になることがある。たとえば、ある Reddit コメントを不快と見るかどうか、あるメールを丁寧と見るかどうかは、評価者の属性や個人の基準に影響される。本論文は、LLM がこのばらつきをどの程度モデル化できるかを、個人レベルの予測問題として扱う。入力はテキストに加えて、アノテータの属性または一意な ID を含む。出力は、そのアノテータが付けるであろう 3 段階または 5 段階のラベルである。評価では、同じテキストに対する集約ラベルではなく、個々のアノテータの個別ラベルを予測できるかを見る。

提案手法

著者らは DEMO という実験用データセットを構成した。これは intimacy、offensiveness、politeness、safety、sentiment の 5 種の主観的分類タスクを統合したもので、21,632 件のテキスト、2,614 人のアノテータ、147,648 件のアノテーションを含む。各データセットで共通して得られる属性として、年齢、性別、人種、教育を標準化して用いる。モデルには Llama 3 8B のベースモデルを使い、報酬モデルで使われるような prediction head を付けて、LoRA によりファインチューニングする。入力形式は、本文のみ、本文と属性、本文とアノテータ ID、本文と ID と属性の四つを主に比べる。さらに、ゼロショットの社会人口統計的プロンプティングもベースラインとして置く。データ分割には二つの設定がある。一つはテキスト単位の分割で、同じアノテータが訓練・検証・テストにまたがって現れうる。もう一つはアノテータ単位の分割で、テストに出るアノテータは訓練時に一度も現れない。この二つを分けたことにより、既知の評価者を覚えられるかと、未知の評価者へ一般化できるかを区別している。

結果

テキスト単位の分割では、属性を加えてファインチューニングしたモデルは、本文のみのモデルやゼロショットのプロンプティングよりよい結果を示す。ここだけを見ると、LLM が属性と評価傾向の関係を学んだように見える。しかし、アノテータ ID を与えたモデルはそれより大きく改善し、ID と属性を同時に与えても ID のみから大きくは伸びない。これは、個人を識別できる情報のほうが、属性一般より強いことを示す。アノテータ単位の分割では、様相が変わる。未知のアノテータに対しては、属性を加えても本文のみのベースラインをほとんど上回らない。さらに著者らは、属性の組み合わせが一人にしか現れない「unique」な場合と、多くの人に共有される「frequent」な場合を分けて調べた。性能向上は unique な属性組み合わせに偏っており、frequent な属性では一貫した改善が小さい。したがって、属性は社会集団の一般的傾向というより、既知の個人を指す代理 ID として働いていると解釈される。なお、ID を用いたモデルは、評価者間の不一致が大きい事例のラベル分布をよりよく近似する傾向も示した。

具体例

たとえば、入力テキストが「Hey, come to the office, please」という短いメールで、タスクが丁寧さを 1 から 5 で評価するものだとする。本文のみのモデルは、この文面そのものから、命令調だが please が付いているので中程度からやや丁寧、といった一般的な予測を行う。属性付きモデルには、「55 歳から 64 歳の女性、大学卒」などの情報も与えられる。期待される出力は、その属性を持つ評価者が付けそうな丁寧さのスコアである。しかし、この論文の結果によれば、同じ属性を持つ未知の人に対して、モデルが安定してよい予測を出せるとは限らない。もし訓練データ中でその属性の組み合わせを持つ人が一人だけなら、モデルは社会集団の傾向ではなく、その一人の過去の採点癖を覚えている可能性がある。たとえば、その人が短い依頼文をいつも低めに評価していれば、モデルも同じ方向に寄せる。別の同属性の人が、同じ文を自然で丁寧だと見る場合には、予測は外れやすい。したがって、この種のモデルを使うなら、属性だけで人間集団を代表させるのではなく、個別のアノテーション例が何を反映しているのかを確認する必要がある。