Catching Stray Balls: Football, fandom, and the impact on digital discourse

生成日:

Catching Stray Balls: Football, fandom, and the impact on digital discourse

Abstract(日本語訳)

本論文は、サッカーの試合に対する感情的反応が、Reddit 上の複数のデジタル空間におけるオンライン言説へどのように影響するかを検討する。数十のサブレディットから得た数百万件の投稿を分析し、現実世界の出来事がコミュニティをまたいで移動する感情の変化を引き起こすことを示す。否定的感情は問題のある言語と相関し、試合結果は感情と投稿習慣に直接影響し、感情は無関係なコミュニティへ移りうること、また、その変化する言説の内容についての知見を提示する。これらの結果は、デジタル空間が孤立した環境ではなく、現実世界の出来事をきっかけとする領域横断的な伝播にさらされる、相互に結びついた感情的エコシステムとして機能することを明らかにし、オンライン上の有害性の伝播に関する理解に寄与する。サッカーは、感情の原因と移動を計算的に測定するための事例研究として用いられているが、ここで見られたパターンはオンライン・コミュニティ一般を理解するうえでも含意をもつ。

論文の面白いところ

この論文の要点は、有害投稿を単に分類するのではなく、感情がどこから来て、どこへ移るのかを追おうとする点にある。サッカーの試合は、開始時刻、終了時刻、勝敗が比較的明確であり、オンライン投稿と対応づけやすい現実世界の出来事である。そのため、通常はあいまいになりやすい「感情的なきっかけ」を、時刻つきの外部事象として扱える。分析では、勝利が投稿数を増やす一方、敗戦は投稿数を減らしても感情をより強く否定側へ動かすという非対称性が見られる。これは、ファンが勝ったときによく書き込むことと、負けたときに強い否定感情を抱くことが別の現象であることを示している。さらに、同じ利用者が短い時間差で別のサブレディットに投稿した場合、サッカー関連投稿の感情と非サッカー関連投稿の感情が弱く対応する。相関は大きくないが、試合中に強まるため、偶然の気分の一致だけでは説明しにくい。オンライン・コミュニティを個別の場所として見るだけではなく、人の移動によって感情も運ばれる場として扱った点に、この研究の価値がある。

問題設定

オンライン上の有害な言説の研究では、投稿がヘイトスピーチか、毒性をもつか、侮辱を含むかを判定する分類タスクがよく扱われる。しかし、分類だけでは、その投稿がどのような状況で増え、どの範囲へ広がるのかは見えにくい。本論文は、サッカーの試合という時間の定まった出来事を用い、クラブ・サブレディット内の感情変化と、そこから別のコミュニティへの感情の移動を調べる。対象は 2008 年 7 月から 2024 年 8 月までの Reddit 投稿で、41 のサッカー・クラブ関連サブレディットから 62,384,329 件を集めている。試合データはイングランドの上位 4 リーグ、国内カップ、欧州大会などの 20,764 試合である。投稿はキックオフ時刻から約 120 分の試合時間、および試合前後の時間帯に対応づけられる。さらに、同じ利用者がクラブ・サブレディットと非クラブ・サブレディットに 10 分以内に投稿した 1,151,726 件のペアを作る。これにより、試合がクラブ内の感情を動かすだけでなく、その感情が別の話題空間へ持ち込まれるかを測れるようにしている。

提案手法

手法は、新しいニューラルモデルを提案するものではなく、大規模な観察データを組み合わせた分析設計である。まず、TweetNLP の RoBERTa 系 sentiment detection model を用い、投稿の肯定・中立・否定の確率を得る。これを -1 から +1 の尺度に正規化し、サブレディットや時刻をまたいで比較できる感情指標にする。次に、ヘイトスピーチ語彙、卑語リスト、RoBERTa 系の ToxicityModel を用い、潜在的に問題のある投稿集合を作る。ここで著者は、有害性判定そのものを目的にしているのではなく、否定的感情と問題含みの語彙や毒性がどの程度結びつくかを確認する。試合結果との関係は、勝ち、引き分け、負けごとに、試合中および試合後 8 時間の投稿量と平均感情を比べる形で調べる。コミュニティ間の移動は、同じ利用者によるクラブ投稿と非クラブ投稿のペアを作り、Kendall の τ と Pearson の χ² 検定で感情の対応を測る。最後に、罵り語、暴力語、強調語、感嘆符、全大文字表記などの言語特徴についても、同じ利用者の別コミュニティ投稿に対応があるかを調べる。

結果

否定的感情は、ヘイトスピーチ、卑語、toxicity として抽出された投稿集合で、通常のクラブ投稿より強く現れた。効果量はヘイトスピーチと toxicity で大きく、卑語では中程度である。卑語は喜びや冗談にも使われるため、否定感情と完全には一致しないが、それでも問題含みの投稿集合では否定側の投稿が多い。試合結果を見ると、敗戦と引き分けの後には sentiment が下がり、勝利後の上昇は小さい。試合中および試合後 8 時間の投稿量では、勝利時の投稿が期待値を上回り、敗戦時は投稿量が少ないにもかかわらず平均感情がより強く否定側へ寄る。時系列では、キックオフ付近で投稿が増え、平均感情は下がる傾向がある。コミュニティ間の分析では、同じ利用者のクラブ投稿と非クラブ投稿の感情に統計的に有意だが弱い相関がある。Kendall の τ は試合外の 0.059 から試合中の 0.118 へ強まり、中立投稿を除くと試合中は 0.146 まで上がる。罵り語、暴力語、強調語、感嘆符、全大文字表記でも、試合中の対応が試合外より強く、感情だけでなく書きぶりも持ち越される可能性が示されている。

具体例

たとえば、あるアーセナルのファンが試合中に r/Gunners に「また守備が崩れた」といった否定的な投稿をしたとする。この論文の分析では、その投稿に TweetNLP による否定寄りの sentiment score が付与され、試合時刻と最終結果に対応づけられる。もし同じ利用者が 10 分以内に、サッカーとは直接関係のないニュースやゲームのサブレディットにも投稿していれば、その投稿とクラブ投稿がペアとして扱われる。そこで非クラブ投稿にも否定的な語調、罵り語、感嘆符、全大文字の強調が現れているかを調べる。期待される出力は、個々の利用者が必ず感情を持ち越すという判定ではなく、多数のペアを集計したときに試合中だけ対応が強まるという統計的な傾向である。間違えやすい点は、これは「サッカーファンが一般に有害である」という主張ではないことである。著者はむしろ、問題のある利用者は少数であり、サッカーを時刻つきの感情イベントとして使っていると説明する。また、「kill the game」のようなサッカー固有の表現は暴力語として誤検出される可能性があり、語彙ベースの分析には限界がある。