Quantifying Misattribution Unfairness in Authorship Attribution

生成日: 2026-05-24 02:20

# Quantifying Misattribution Unfairness in Authorship Attribution
- 著者同定システムで「正解著者を上位に出せるか」だけでなく、「無関係な著者を誤って上位に出しすぎないか」を測る論文である。
- Misattribution Unfairness Index（MAUIk）を定義し、5種類の埋め込みモデルをReddit、Blogs、Fanfictionのデータで調べている。
- すべてのモデルで誤帰属の偏りが見られ、埋め込み空間の中心に近い著者ほど、他人の文章に対して上位候補に出やすい傾向があった。

## 論文の面白いところ

著者同定は、ある文章を書いた人物を候補者群から推定する課題である。この論文は、その精度ではなく、誤って疑われる側の危険に焦点を置く。法科学や捜査の場面では、1位に誤判定されなくても、上位候補に入るだけで追加の調査を受けることがある。従来のMean Reciprocal Rank（MRR）やRecall@kは、正しい著者がどれだけ上に来るかを測るが、無関係な著者がどれだけ頻繁に上位へ出るかは測らない。著者らは、この空白を公平性の問題として扱い、Misattribution Unfairness Index（MAUIk）を導入する。測定の考え方は簡潔で、ランダムな順位なら各著者が上位k件に現れる回数はほぼ均等になるはずだ、という基準を置く。実験では、高精度のモデルが必ずしも低い誤帰属リスクを持つわけではないことが示される。この点は、著者同定システムを検索補助として使う場合にも、利用者へどのような注意を示すべきかを考えさせる。

## 問題設定

論文が扱うのは、needle-in-the-haystack型の著者同定である。haystackは既知の著者とその文書の集合であり、queryは著者不明の文書である。システムは各候補著者の文書を埋め込みベクトルに変換し、query文書の埋め込みとの近さで候補を順位づける。この形式は、候補者が非常に多い場合でも検索として処理しやすい。論文では、正しい著者を探す性能とは別に、ある候補者が自分の書いていない文章に対して上位k件へ入りすぎる問題を考える。公平な状態の基準として、無関係な候補者が上位k件に入る確率を一様なランダム順位から見積もる。実際のモデルの順位で、その期待回数を大きく超えて上位に現れる著者が多ければ、誤帰属の偏りがあるとみなす。この設定は、ある集団の代表性を保証する通常の検索公平性とは少し違い、むしろ不必要な露出を減らす公平性である。

## 提案手法

提案される指標はMisattribution Unfairness Index（MAUIk）である。候補著者数をNh、query著者数をNq、上位を見る幅をkとする。ランダム順位であれば、特定の著者が上位k件に入る期待回数は、おおよそk/NhにNqを掛けた値になる。各著者について、実際に上位k件へ入った回数がこの期待回数を超えた分だけを足し合わせる。これを最悪ケース、すなわち同じk人がすべてのqueryで上位k件に入る場合の値で割り、0から1の範囲に正規化する。0に近いほど誤帰属の負担が均等であり、1に近いほど一部の著者へ負担が集中する。著者らは、SBERT、LUAR、Wegmann、StyleDist.、MPNetARの5種類の埋め込みモデルを比較する。さらに、各著者の埋め込みが全体の重心からどれだけ離れているかを測り、誤って上位に出る頻度との関係を調べる。

## 結果

実験にはReddit、Blogs、Fanfictionの3種類のデータが使われる。Redditでは111,396人の候補著者と25,000人のquery著者、Blogsでは9,000人の候補著者と2,500人のquery著者、Fanfictionでは20,000人の候補著者と7,500人のquery著者が用いられる。通常の性能では、BlogsでLUARがRecall@8 0.97、MRR 0.90と高い値を示し、MPNetARも近い性能を示す。しかし、MAUIkで見ると、性能の高さと誤帰属の公平性は一致しない。たとえばBlogsのMAUI10はSBERTが0.36、LUARが0.26、MPNetARが0.23、Wegmannが0.14、StyleDist.が0.22であり、Wegmannは性能では低いが誤帰属の偏りは小さい。Redditでも同様に、WegmannのMAUI10は0.09で最も低く、SBERTは0.31で高い。上位10件への出現回数が期待値の5倍を超える著者も多く、RedditのSBERTでは1,599人、BlogsのSBERTでは214人が該当する。さらに、埋め込み空間の重心に近い著者ほど、他人のqueryに対して平均順位が高くなる傾向が見られた。これは、中心的な文体を持つ著者が、広い範囲の文章に対して「それらしく」見えてしまう可能性を示す。

## 具体例

たとえば、ある調査で匿名の短い投稿が見つかり、候補者として1万人の過去投稿が登録されているとする。著者同定システムは、候補者ごとに過去投稿をまとめてベクトル化し、匿名投稿のベクトルに近い順に候補者を並べる。正しい著者が8位以内に入れば、通常のRecall@8では成功として数えられる。しかし、この論文の観点では、正しい著者ではないAさんが、別人の匿名投稿でも何度も上位10件に出てしまう状況が問題になる。Aさんが本当に多くの文章に似た書き方をしているのか、モデルの埋め込み空間でたまたま中心付近に置かれているだけなのかは、通常の精度指標からは分からない。MAUI10は、Aさんのように期待値を超えて上位へ現れる候補者がどれだけいるかを集計する。期待される出力は、単に「この候補が最も近い」という順位ではなく、その順位表が一部の候補者を過剰に疑わせていないかという評価である。間違えやすい点は、高い著者同定性能をそのまま安全性や公平性と見なすことである。論文の結果は、上位候補リストを人間が読む運用では、順位の精度と誤帰属リスクを分けて表示する必要があることを示している。

Quantifying Misattribution Unfairness in Authorship Attribution

著者同定システムで「正解著者を上位に出せるか」だけでなく、「無関係な著者を誤って上位に出しすぎないか」を測る論文である。
Misattribution Unfairness Index（MAUIk）を定義し、5種類の埋め込みモデルをReddit、Blogs、Fanfictionのデータで調べている。
すべてのモデルで誤帰属の偏りが見られ、埋め込み空間の中心に近い著者ほど、他人の文章に対して上位候補に出やすい傾向があった。

論文の面白いところ

著者同定は、ある文章を書いた人物を候補者群から推定する課題である。この論文は、その精度ではなく、誤って疑われる側の危険に焦点を置く。法科学や捜査の場面では、1位に誤判定されなくても、上位候補に入るだけで追加の調査を受けることがある。従来のMean Reciprocal Rank（MRR）やRecall@kは、正しい著者がどれだけ上に来るかを測るが、無関係な著者がどれだけ頻繁に上位へ出るかは測らない。著者らは、この空白を公平性の問題として扱い、Misattribution Unfairness Index（MAUIk）を導入する。測定の考え方は簡潔で、ランダムな順位なら各著者が上位k件に現れる回数はほぼ均等になるはずだ、という基準を置く。実験では、高精度のモデルが必ずしも低い誤帰属リスクを持つわけではないことが示される。この点は、著者同定システムを検索補助として使う場合にも、利用者へどのような注意を示すべきかを考えさせる。

問題設定

論文が扱うのは、needle-in-the-haystack型の著者同定である。haystackは既知の著者とその文書の集合であり、queryは著者不明の文書である。システムは各候補著者の文書を埋め込みベクトルに変換し、query文書の埋め込みとの近さで候補を順位づける。この形式は、候補者が非常に多い場合でも検索として処理しやすい。論文では、正しい著者を探す性能とは別に、ある候補者が自分の書いていない文章に対して上位k件へ入りすぎる問題を考える。公平な状態の基準として、無関係な候補者が上位k件に入る確率を一様なランダム順位から見積もる。実際のモデルの順位で、その期待回数を大きく超えて上位に現れる著者が多ければ、誤帰属の偏りがあるとみなす。この設定は、ある集団の代表性を保証する通常の検索公平性とは少し違い、むしろ不必要な露出を減らす公平性である。

提案手法

提案される指標はMisattribution Unfairness Index（MAUIk）である。候補著者数をNh、query著者数をNq、上位を見る幅をkとする。ランダム順位であれば、特定の著者が上位k件に入る期待回数は、おおよそk/NhにNqを掛けた値になる。各著者について、実際に上位k件へ入った回数がこの期待回数を超えた分だけを足し合わせる。これを最悪ケース、すなわち同じk人がすべてのqueryで上位k件に入る場合の値で割り、0から1の範囲に正規化する。0に近いほど誤帰属の負担が均等であり、1に近いほど一部の著者へ負担が集中する。著者らは、SBERT、LUAR、Wegmann、StyleDist.、MPNetARの5種類の埋め込みモデルを比較する。さらに、各著者の埋め込みが全体の重心からどれだけ離れているかを測り、誤って上位に出る頻度との関係を調べる。

結果

実験にはReddit、Blogs、Fanfictionの3種類のデータが使われる。Redditでは111,396人の候補著者と25,000人のquery著者、Blogsでは9,000人の候補著者と2,500人のquery著者、Fanfictionでは20,000人の候補著者と7,500人のquery著者が用いられる。通常の性能では、BlogsでLUARがRecall@8 0.97、MRR 0.90と高い値を示し、MPNetARも近い性能を示す。しかし、MAUIkで見ると、性能の高さと誤帰属の公平性は一致しない。たとえばBlogsのMAUI10はSBERTが0.36、LUARが0.26、MPNetARが0.23、Wegmannが0.14、StyleDist.が0.22であり、Wegmannは性能では低いが誤帰属の偏りは小さい。Redditでも同様に、WegmannのMAUI10は0.09で最も低く、SBERTは0.31で高い。上位10件への出現回数が期待値の5倍を超える著者も多く、RedditのSBERTでは1,599人、BlogsのSBERTでは214人が該当する。さらに、埋め込み空間の重心に近い著者ほど、他人のqueryに対して平均順位が高くなる傾向が見られた。これは、中心的な文体を持つ著者が、広い範囲の文章に対して「それらしく」見えてしまう可能性を示す。

具体例

たとえば、ある調査で匿名の短い投稿が見つかり、候補者として1万人の過去投稿が登録されているとする。著者同定システムは、候補者ごとに過去投稿をまとめてベクトル化し、匿名投稿のベクトルに近い順に候補者を並べる。正しい著者が8位以内に入れば、通常のRecall@8では成功として数えられる。しかし、この論文の観点では、正しい著者ではないAさんが、別人の匿名投稿でも何度も上位10件に出てしまう状況が問題になる。Aさんが本当に多くの文章に似た書き方をしているのか、モデルの埋め込み空間でたまたま中心付近に置かれているだけなのかは、通常の精度指標からは分からない。MAUI10は、Aさんのように期待値を超えて上位へ現れる候補者がどれだけいるかを集計する。期待される出力は、単に「この候補が最も近い」という順位ではなく、その順位表が一部の候補者を過剰に疑わせていないかという評価である。間違えやすい点は、高い著者同定性能をそのまま安全性や公平性と見なすことである。論文の結果は、上位候補リストを人間が読む運用では、順位の精度と誤帰属リスクを分けて表示する必要があることを示している。