taz2024full: Analysing German Newspapers for Gender Bias and Discrimination across Decades

生成日:

taz2024full: Analysing German Newspapers for Gender Bias and Discrimination across Decades

論文の面白いところ

この論文の中心は、新しいモデルではなく、研究に使える大きなドイツ語新聞コーパスの公開にある。英語のニュースコーパスに比べ、ドイツ語では長期にわたる記事本文を大規模に扱える公開資源が限られている。taz2024full は、ベルリンを拠点とする日刊紙 die Tageszeitung、通称 taz の公開記事を対象とし、1980年から2024年までを含む。記事数は 1,834,026 件で、SoMaJo トークナイザによるユニークトークン数は 6,944,197 と報告されている。論文はこのコーパスを、自然言語処理だけでなく、計算社会科学やメディア研究のための材料として位置づける。単一紙に限られる点は弱点であるが、同じ編集媒体を長期に見るため、時系列比較には扱いやすい。さらに著者らは、単なる配布にとどめず、ジェンダー表象の分析例を示している。この点で、データセット論文としての性格と、応用研究の小さな実証とが同居している。

問題設定

新聞記事におけるジェンダー・バイアスを調べるには、十分な量と期間をもつ本文データが必要である。短期間のデータでは、社会的事件、編集方針、語法の変化を区別しにくい。ドイツ語では、既存資源の多くが検索画面での閲覧に限られたり、文単位の取得に限られたりするため、コーパス全体を用いた処理が難しい。そこで本論文は、長期の新聞本文を機械処理可能な JSON 形式で整備することを第一の課題とする。第二の課題は、そのコーパスが実際に偏りや差別の研究に使えるかを示すことである。著者らは gender を社会的構成物として扱うが、方法上はドイツ語の代名詞に基づく二分的な分析に限られる。非二元的なジェンダーを理論上は認めつつ、ドイツ語で広く使われる非二元代名詞が少なく、検出可能な例も乏しいためである。この制約を明示したうえで、論文は、記事中の人物がどれだけ登場し、どのように記述されるかを測る。

提案手法

データは 2024年8月から11月にかけて taz の公開ウェブサイトから収集された。商用利用は禁じられ、学術研究目的での利用が想定されている。各記事は JSON で保存され、公開日、クロール日、言語、記事種別、著者、キーワード、トークン数などのメタデータを含む。本文側には、見出し、ティーザー、記事本文が入るが、すべての項目が常に揃うわけではない。著者らは三トークン以下の記事断片を除外し、短すぎる項目が分析に混じることを避けた。ジェンダー表象の分析には、Urchs らの英語向けパイプラインをドイツ語に合わせて拡張して用いる。まず固有表現認識で人物を検出し、同名や姓だけの言及を同じ人物としてまとめ、共参照解析で代名詞と人物を結び付ける。次に、その人物を指す主な代名詞が she/her 型か he/him 型かを見て、結果の集計上は女性または男性として扱う。さらに、人物が現れる文の感情、女性コード語と男性コード語、ドイツ語の総称男性形、ジェンダー中立表現、人物と強く共起する形容詞の PMI も記録する。著者らは大規模言語モデルを使わず、解釈しやすい既存手法を選んだと述べている。

結果

コーパス中の記事数は、1980年以降に増え、2004年に 73,002 件でピークを迎えた。その後は公開記事数が減少しており、2007年以降の有料コンテンツ増加など、公開範囲の変化が関係している可能性がある。全記事の 83% は特定の人物に言及しており、人物単位の表象分析に向く構造をもつ。ジェンダー表象の分析では、1990年代以降、taz は女性より男性を多く取り上げてきたことが示された。2010年代以降は女性の登場比率が上がり、近年は人物数の点ではかなり均衡に近づく。しかし、言及回数を見ると、男性はなお女性より多く紙面上の空間を占める。感情分析では、全体として中立に近いがやや否定的な傾向があり、女性への感情値は男性より一貫して少し低い。形容詞の PMI や女性コード語、男性コード語の分析では、強いジェンダー差は見られなかった。ジェンダー中立表現については、手作業で一部の例は確認されたものの、標準的な編集慣行として広く採用されているとは言えない。著者らは、単一紙であること、共参照解析の精度、バイアス判定の価値依存性を、結果解釈上の制約として挙げている。

具体例

たとえば、ある taz の記事が、ドイツの政治家 Anna Keller と経済学者 Martin Weber について書いているとする。記事本文には「Keller は改革案を説明した。彼女は慎重な姿勢を保った。一方、Weber は強く反対し、彼は政府の見通しを楽観的すぎると述べた」といった文が含まれる。パイプラインはまず Anna Keller と Martin Weber を人物として検出し、Keller、Weber、姓だけの再言及をそれぞれ同じ人物にまとめる。次に「彼女」が Keller を指し、「彼」が Weber を指すと判断できれば、Keller は she/her 型、Weber は he/him 型として集計される。手法は各人物が何回言及されたかを数え、人物が出てくる文を取り出して、感情値や記述語を調べる。この例では、Keller が「慎重な」と描かれ、Weber が「強く反対し」と描かれているため、形容詞や周辺語がそれぞれの人物の記述として扱われる。期待される出力は、女性人物一名、男性人物一名、各人物の言及回数、各人物に関する文の感情と記述語を含む集計である。間違えやすい点は、ドイツ語の代名詞や省略、姓だけの再登場、同姓の別人が混じる場合である。共参照が失敗すると、人物数や言及回数がずれ、女性と男性の比較にも小さな誤差が入る。論文の手法はこの限界をなくすものではなく、長期の大量記事に対して、同じ基準で測れる指標を与えるものと見るべきである。