Digital Gatekeepers: Google's Role in Curating Hashtags and Subreddits
- Google 検索の Search Engine Result Pages(SERP)に現れる Reddit の subreddit と Twitter/X の hashtag を、各プラットフォーム側の大規模データと照合した研究である。
- SERP は単に人気順を写すのではなく、成人向け内容、暗号資産、広告、政治・陰謀論に近い話題を相対的に出しにくくし、ゲーム、娯楽、技術、健康などを出しやすくしていた。
- social media 研究で SERP を代替データ源として使う場合、そこには検索エンジンによる選別が含まれる、という注意を実証的に示している。
Abstract(日本語訳)
検索エンジンはデジタルなゲートキーパーとして重要な役割を担い、アルゴリズムによるキュレーションを通じて Web と social media の内容の可視性を形づくっている。本研究は、Google のような検索エンジンが特定の hashtag や subreddit をどのように選択的に押し上げ、あるいは抑制し、利用者が接する情報に影響を与えるのかを調べる。検索エンジンの結果を、Reddit と Twitter/X から得た非サンプル化データと比較することで、内容の可視性に体系的な偏りがあることを明らかにする。Google のアルゴリズムは、性的に露骨な内容、陰謀論、広告、暗号資産に関係する subreddit や hashtag を抑制しがちである一方、より高い engagement と結びついた内容を押し上げる傾向がある。これらの知見は、Google のゲートキーピング実践が、利用者に利用可能な social media 上の語りをキュレーションすることにより、公的な議論に影響を及ぼすことを示している。
論文の面白いところ
この論文の主眼は、検索結果を便利な観測窓として扱うときの危うさを、subreddit と hashtag という分かりやすい単位で測っている点にある。Post-API 時代には、研究者が Reddit や Twitter/X の完全に近いデータを得ることが難しくなり、SERP を代替データとして使いたくなる。だが SERP は、プラットフォームの活動量をそのまま縮小した標本ではない。Google は検索品質や安全性のために結果を順位づけ、除外し、地域や時点の影響も受ける。その処理が、どのコミュニティや話題を「見えるもの」にするかを変える。
著者らはこの問題を、投稿やページ単位ではなく、コミュニティや話題の単位で見る。たとえば Reddit なら r/AskReddit やゲーム系 subreddit、Twitter/X なら #nft や時事イベントの hashtag が、SERP と元データでどの程度ずれているかを見る。この粒度にすると、検索エンジンが個々のページだけでなく、社会的な話題の見取り図そのものを変えうることが分かる。研究としては派手なモデル提案ではないが、NLP や computational social science のデータ収集に関わる論点として実用的である。
問題設定
social media 研究では、どの話題が広がり、どの集団が発言し、どのような言葉が使われているかを調べるために、大量の投稿データが必要になる。以前は API を通じて比較的広い範囲のデータを取得できたが、近年は Reddit や Twitter/X の API 制限が強まり、研究者は別の取得経路を探している。検索エンジンの結果ページ、すなわち SERP は、その候補の一つである。検索エンジンは大規模な Web インデックスを持ち、social media のページも多数返すからである。
しかし SERP は、プラットフォーム上の活動を中立に写したものではない。検索エンジンは関連性、人気、品質、安全性、モデレーション方針などを通じて結果を選ぶ。したがって、SERP に現れる subreddit や hashtag だけを見て social media の全体像を推定すると、見えない話題や過大に見える話題が生じる。論文は、Reddit と Twitter/X の非サンプル化データに対して、Google 検索で得た time-matched な SERP sample がどれほどずれるかを調べる。問いは、検索ランキングとモデレーションが何を見せ、何を見せにくくしているのか、そしてその差が toxicity や話題分類にどう現れるかである。
提案手法
著者らは、Reddit と Twitter/X について、プラットフォーム側の大規模データと Google SERP の結果を同じ時期で比較する。Reddit では 2023 年 1 月の Pushshift データを用い、36,090,931 件の投稿、253,577,506 件のコメント、336,949 種の subreddit を対象にしている。Twitter/X では 2022 年 9 月 20 日から 21 日までの 24 時間のデータを用い、374,937,971 件の tweet を扱う。このうち約 80% は retweet、quote、reply であり、残りが original tweet である。
SERP 側では、元データから keyword を抽出し、出現頻度に基づく層化により 1,000 個の keyword を選ぶ。各 keyword について site:reddit.com {keyword} や site:twitter.com {keyword} の形式で Google に問い合わせ、対象期間を元データと合わせる。Twitter/X では SERP の非決定性を考慮して各 query を 3 回実行し、結果を統合している。得られた SERP sample は、Reddit で 1,296,958 posts、Twitter/X で 80,651 tweets であった。
分析は四つの方向から行う。第一に、subreddit の投稿数や hashtag の頻度と、SERP での出現頻度の相関を見る。第二に、SERP に出るものと出ないもののカテゴリを比較する。Twitter/X の hashtag は GPT-4 を用いて既存研究のカテゴリに分類している。第三に、Toxic-BERT により投稿タイトルや tweet の toxicity、obscenity、insult の確率を測る。第四に、Rank Turbulence Divergence(RTD)を用いて、非サンプル化データと SERP sample の順位分布のずれを測る。さらに subreddit については MPNet-Base-V2 embedding と UMAP を用い、SERP に現れるコミュニティと現れにくいコミュニティの意味的な分布も確認している。
結果
活動量と SERP 出現の間には相関があったが、完全な対応ではない。Twitter/X の hashtag では R2 = 0.214、Reddit の subreddit では R2 = 0.423 で、Reddit のほうがやや強く結びついていた。これは人気のある話題ほど検索結果に出やすいことを示す一方、人気だけでは SERP の可視性を説明できないことも示している。とくに Twitter/X は 24 時間のデータであるため、過去の人気やイベント性が SERP に残る場合がある。
カテゴリ別に見ると、Reddit では public subreddit が SERP に出やすく、restricted、forbidden、private な subreddit は出にくい。Twitter/X の hashtag では、Games と Finance が SERP に多く、Advertisement、Politics、Entertainment は相対的に少なかった。toxicity 分析では、Reddit で SERP に出ない subreddit のほうが toxicity が高く、Google がかなり強く濾過している可能性が示された。Twitter/X では差は小さく、全体として toxicity も Reddit より低かった。
順位分布のずれは大きく、RTD は Reddit で 0.64、Twitter/X で 0.73 であった。著者らの制御比較では同一データ内のランダム比較が約 0.30 であるため、SERP と元データのずれは小さくない。具体的には、成人向け内容、bot 的な広告、暗号資産、政治、COVID-19 関連の subreddit は SERP に現れにくく、技術、音楽、漫画、ゲーム、健康関連の subreddit は現れやすかった。hashtag では国連総会、FIFA ゲーム、Prada や Milan Fashion Week に関わるものが出やすい一方、NFT、暗号資産、一部の政治・社会運動系 hashtag は出にくかった。結論として、SERP は研究用の便利な入口ではあるが、social media の母集団をそのまま表す標本ではない。
具体例
たとえば、研究者が「暗号資産の話題は Twitter/X と Reddit でどの程度広がっていたか」を調べたいとする。入力になるのは、一定期間の Reddit 投稿と tweet、そして同じ期間に Google で site:reddit.com crypto や site:twitter.com nft のように検索して得た SERP である。手法はまず、元データ側で r/CryptoCurrency や #nft などがどれほど頻繁に出たかを数え、SERP 側でも同じ単位の出現頻度を数える。次に、両者の順位分布を RTD で比較し、さらに toxicity やカテゴリの差も調べる。期待される出力は、「暗号資産関連の hashtag は元データでは多いが、SERP では相対的に少ない」というような可視性の差である。
間違えやすい点は、SERP に少ないことを、そのまま「実際に話題が少なかった」と読んでしまうことである。検索エンジンは spam、広告、危険な投資勧誘、低品質ページを抑えるために結果を調整している可能性がある。その調整は利用者保護に役立つ場合もあるが、研究者が社会的な関心の分布を推定するときには bias になる。したがって、この論文の立場では、SERP は観測対象の一部であり、母集団の代用品としては補正や注意書きが必要である。