FactDebug at SemEval-2025 Task 7: Hybrid Retrieval Pipeline for Identifying Previously Fact-Checked Claims Across Multiple Languages

生成日:

FactDebug at SemEval-2025 Task 7: Hybrid Retrieval Pipeline for Identifying Previously Fact-Checked Claims Across Multiple Languages

Abstract(日本語訳)

多言語の誤情報が増えていることにより、言語をまたいでファクトチェック済み claim を検索する堅牢なシステムが求められている。本論文は SemEval-2025 Shared Task 7 を扱う。このタスクでは、14 言語にわたるソーシャルメディア投稿について、投稿とファクトチェックが異なる言語で書かれている場合も含め、対応するファクトチェックを検索することが求められる。著者らは、BM25 と BGE-m3 を用いた疎な語彙一致手法と、事前学習済みおよびファインチューニング済み BGE-m3 embedding を用いた密な意味検索手法を組み合わせた hybrid retrieval pipeline を提案する。この手法は、相補的な検索戦略を動的に融合し、curriculum training された reranker を用いて検索性能を最適化する。提案システムは、Shared Task MultiClaim dataset において、cross-lingual accuracy 67.2%、monolingual accuracy 86.01% を達成した。

論文の面白いところ

この論文の良さは、ファクトチェック検索を、LLM に一度で判定させる問題としてではなく、検索の古典的な部品を丁寧に組み合わせる問題として扱っている点にある。入力は短く、口語的で、しばしば多言語であり、検索対象は専門家が作った既存のファクトチェックである。この条件では、意味的に近い文を探すだけでは足りず、固有名詞、数値、出来事名の一致も重要になる。著者らはそのため、疎な検索と密な検索のどちらかを選ぶのではなく、両方を候補生成に使う。さらに、monolingual では語彙一致を重めに、cross-lingual では疎な検索と密な検索の均衡を取る方がよい、という結果も実務的である。多言語検索では embedding が万能に見えやすいが、この論文は語彙的な手がかりがまだ強いことを示している。低資源言語や slang の多い投稿では OCR や翻訳の誤りが下流へ伝わるという制約も明記されており、システムの使いどころが見えやすい。

問題設定

対象は Previously Fact-Checked Claim Retrieval(PFCR)である。あるソーシャルメディア投稿が与えられたとき、既にファクトチェックされた claim の集合から、内容が対応するものを上位に返す。SemEval-2025 Task 7 では、この設定が monolingual と cross-lingual に分かれている。monolingual では投稿とファクトチェックが同じ言語で書かれる。cross-lingual では、投稿と対応するファクトチェックが異なる言語で書かれることがある。評価には Success@10 が用いられ、正しいファクトチェックが上位 10 件に入るかを見る。dataset は MultiClaim の修正版で、テストでは 272,447 件のファクトチェックと、cross-lingual 4,000 件、monolingual 4,276 件の投稿を含む。

提案手法

提案手法は四段階の retrieval pipeline である。第一に、BM25 と BGE-m3 lexical weights により、語彙一致に基づく疎な検索を行う。前処理は重くなく、絵文字をテキスト alias に変換する程度にとどめている。第二に、BGE-m3 dense encoder により、文面が異なっていても意味的に近い候補を拾う。BGE-m3 については、事前学習済みモデルに加えて、関連 claim と非関連 claim を分けるための contrastive loss によるファインチューニング版も試している。第三に、各検索器の順位を Reciprocal Rank Fusion(RRF)で統合する。RRF では、個々のスコアそのものではなく順位を使うため、異なる検索器の出力を比較的扱いやすく混ぜられる。最後に、上位候補を cross-encoder 型の reranker で並べ替える。reranker には BGE reranker を使い、curriculum-learned reranker では fact-checking への適応と hard negative による追加学習を行っている。

結果

単純な BM25 は、monolingual 62.96%、cross-lingual 56.15% にとどまった。BGE-m3 lexical は monolingual 79.18%、cross-lingual 57.87% で、語彙一致の学習済み表現が BM25 より有効であることを示した。BGE-m3 dense は monolingual 78.91%、cross-lingual 65.9% で、言語をまたぐ場合に密な検索が強く働いた。疎な検索と密な検索を組み合わせると、reranker なしでも monolingual 85.20%、cross-lingual 67.02% まで上がった。cross-lingual の最良値は、疎な検索と密な検索を 1:1 で融合し、reranker を加えた 67.2% である。monolingual の最良値は、疎な検索を重くした 8:2 の融合に reranker を加えた 86.01% である。stella_en_1.5B_v5 や multilingual-e5-large-instruct への置換も試されているが、品質向上は得られなかった。全体として、同一言語では語彙一致が強く、異なる言語をまたぐ場合には意味検索の比重を保つ必要がある、という読み方ができる。

具体例

たとえば、英語の投稿として「A video shows that a European minister admitted vaccines were never tested for transmission」と書かれた短い文が入力されたとする。検索対象には、英語、フランス語、スペイン語などで書かれた既存のファクトチェックが多数あり、その中に同じ動画発言を扱った記事が含まれている。BM25 や BGE-m3 lexical は、minister、vaccines、tested、transmission といった語や、それに近いトークンの一致から候補を拾う。BGE-m3 dense は、別の言語で「ワクチンが感染予防について試験されていなかったという主張」と述べられたファクトチェックも近い候補として扱う。RRF は、それぞれの検索器で上位に来た文書をまとめ、片方の検索器だけが見つけた候補も落としすぎないようにする。reranker は投稿と候補ファクトチェックを対にして読み直し、同じ出来事についての claim かどうかを見て順位を整える。期待される出力は、その動画発言に関する既存ファクトチェックを上位 10 件以内に置くことである。間違えやすいのは、同じ vaccine という語を含むが別の政策や別の国の話を扱う記事、あるいは翻訳で主語や否定が弱くなった記事である。このため、語彙一致だけでも意味検索だけでもなく、両者を分けて使ってから統合する設計になっている。