CrisisTS: Coupling Social Media Textual Data and Meteorological Time Series for Urgency Classification
- 災害時のソーシャルメディア投稿を、投稿文だけでなく気象時系列データと結びつけて、緊急度を分類する研究である。
- フランス語・英語の既存危機データセットを、公開気象データと時間・場所で対応づけた CrisisTS を構築している。
- テキストのみの分類器より、気象データを early fusion で加えたモデルのほうが、とくに洪水・嵐・ハリケーンのような気象に関わる危機で有利であった。
Abstract(日本語訳)
本論文は CrisisTS を提案する。これは、フランス語と英語のソーシャルメディアにおける、洪水や嵐のような予測可能な危機、および地震や爆発のような突発的な危機に関するベンチマーク危機データセットを、オープンソースの地理座標付き気象時系列データに対応づけて構成した、緊急度分類のための初のマルチモーダルかつ多言語データセットである。この対応づけは、テキスト中に場所への言及がない場合でも、時間的・位置的なアラインメントを可能にする単純で有効な方略に基づいている。モデルの汎化可能性を保ちながら全体の性能を改善するため、transformer と LLM を用いた一連のマルチモーダル実験を行った。結果は、モダリティ融合がテキストのみのモデルを上回ることを示している。
論文の面白いところ
災害時の投稿分類では、文面だけを見ると誤りやすい例が多い。たとえば「台所が水浸しだ」という投稿は、洪水発生中なら救助や被害把握に関わる可能性があるが、平常時なら個人的な水漏れにすぎない。CrisisTS は、この差を気象時系列データで補おうとする。画像や動画を加えるマルチモーダル災害 NLP は先行研究があるが、公開気象データを投稿分類に組み込む点は比較的新しい。論文の焦点は、単に分類器を強くすることではなく、現実の災害対応で問題になる「未知の事象への持ち運びやすさ」にある。既知のイベントだけで高い点を出すのではなく、訓練に含まれない危機イベントや危機タイプに対して評価している点がよい。データセット構築では、投稿に場所名が明示されない場合にも、イベント単位の地理情報から近い気象観測点を割り当てる。厳密さには限界があるが、実際のソーシャルメディア投稿の粗さを考えると、この割り切りは実用的である。著者らは、位置ずれや時系列頻度の影響も検討しており、データを作っただけでなく、その弱点も測っている。
問題設定
対象は、災害時に投稿された短いソーシャルメディア文を、緊急対応に役立つかどうかで分類する課題である。論文では、utility、urgency、humanitarian category の複数の分類を扱う。utility は危機に関係する投稿かどうか、urgency は緊急性があるかどうか、humanitarian category は人的被害、物的被害、避難、警告、支援などの細かい情報種別を表す。従来のテキスト分類器は、投稿本文の語彙や文脈だけから判断するため、「fire」「flood」のような語が比喩や日常表現として使われた場合に誤りやすい。さらに、災害データは緊急投稿が少なく、クラス不均衡が大きい。実運用では、過去に学習した災害と同じ種類の災害が起きるとは限らず、同じ種類でも地域や時期が異なることが多い。このため、論文は out-of-event と out-of-type の評価を置く。前者は同じ危機タイプの別イベントへの汎化、後者は訓練していない危機タイプへの汎化を見る設定である。とくに out-of-type は、災害対応の現場に近い厳しい設定である。
提案手法
著者らはまず、CrisisTS というデータセットを構築する。フランス語側では KOZLOWSKI データセットを用い、火災、洪水、嵐、ハリケーン、建物崩落、爆発、攻撃などの投稿を扱う。英語側では IDRISI-RE と HumAID をもとに、災害投稿と位置言及の情報を利用する。これらの投稿を、Météo-France、National Oceanic and Atmospheric Administration(NOAA)、National Institute of Water and Atmospheric Research(NIWA)などの公開気象データに対応づける。フランス語データでは 3 時間ごとの時系列、英語データでは日次の時系列を用いる。場所の対応づけは、投稿中の位置名が一意に定まる場合はその位置を使い、曖昧な場合や場所名がない場合は、投稿が属する災害イベントの Wikipedia ページなどから得た地理情報で近い観測点を選ぶ。時間の対応づけは、投稿時刻の直前の気象データを窓として切り出す。分類モデルでは、FlauBERT や RoBERTa などのテキストモデルを基礎に、テキスト表現と時系列表現を連結する early fusion を用いる。さらに、危機が突発型か非突発型かを補助タスクとして加えた multitask モデルも試す。LLM 系では Mistral 7B と Llama 3 8B の few-shot 分類、および TimeLLM を分類向けに改変した MM-TimeLLM を比較している。
結果
フランス語データでは、urgency 分類の平均 F1 は、既存の multitask FlauBERT 系モデルで 67.11、そこに sudden/not-sudden 補助タスクと early fusion を加えたモデルで out-of-event 67.26、out-of-type 64.68 となった。数値上の改善は大きくない箇所もあるが、気象時系列を加えたモデルは intent や urgency でおおむねテキストのみの対応モデルを上回る。英語データでは、RoBERTa3Tasks が urgency で 78.89、early fusion と sudden 補助タスクを組み合わせたモデルが 79.58 で最良であった。英語側で改善が小さい理由として、気象時系列が日次であり、フランス語側の 3 時間ごとのデータより粒度が粗いことが挙げられている。LLM の few-shot 分類は、Mistral や Llama 3 単独では transformer 系の教師ありモデルに届かない。MM-TimeLLM は LLM 単独より良い場合があるが、humanitarian category では性能が大きく落ちる。これは、人的被害や支援要請の細分類には気象データより本文の意味が強く効くためと考えられる。クラス別分析では、気象データを加えることで NOT-USEFUL の判定が改善する。たとえば局所的な水漏れを、周辺で気象異常がないため災害投稿ではないと判断しやすくなる。時系列頻度の実験では、フランス語側の 3 時間データを 6 時間・12 時間に粗くすると、utility と urgency の F1 が下がり、高頻度の観測が緊急投稿検出に有用であることが示された。
具体例
大雨の時期に、ある利用者が「家の前の道路が冠水して車が動けない。近くの橋も危ない」と投稿したとする。テキストだけの分類器は、「冠水」「橋」「危ない」といった語から緊急性の高い投稿と判断する可能性が高い。CrisisTS 型のモデルでは、まず投稿がどの災害イベントと時刻に属するかを見て、対応する地域の降水量、風速、気圧などの直近の時系列を取り出す。もし同じ地域で強い雨や風の異常が観測されていれば、本文の内容と外部状況が合い、urgent あるいは物的被害・警告に近い投稿として扱いやすくなる。反対に、同じ文面が晴天の日に投稿され、気象時系列にも異常がなければ、モデルは災害対応に不要な投稿とみなす手がかりを得る。ただし、爆発やテロ攻撃のような突発的な危機では、気象データは事件の有無をほとんど説明しない。この場合、時系列を強く見すぎると、本文に明確な被害情報があるのに緊急性を低く見積もるおそれがある。論文の結果でも、気象データは洪水や嵐のような非突発型危機でより効き、突発型危機では効果が限定的であった。