BitsAndBites at SemEval-2025 Task 9: Improving Food Hazard Detection with Sequential Multitask Learning and Large Language Models

生成日: 2026-05-24 02:20

# BitsAndBites at SemEval-2025 Task 9: Improving Food Hazard Detection with Sequential Multitask Learning and Large Language Models

- 食品リコール報告から、食品の種類と危害の種類を同時に分類する SemEval-2025 Task 9 参加論文である。
- RoBERTa-large を基礎に、食品名と危害名を別々の分類ヘッドで扱い、粗いカテゴリから細かなラベルへ確率を伝える。
- 単一ヘッドの基準手法に比べ、粗分類で F1 0.7998、詳細分類で F1 0.4644 から 0.4700 程度まで改善した。

## 論文の面白いところ

この論文の主眼は、食品安全の文章分類を単なるテキスト分類として扱わない点にある。食品リコール報告では、「何が回収されたか」と「なぜ危険か」が対になって現れる。従来の分類器で両者を一つの出力空間に押し込むと、多数派の食品ラベルに引き寄せられ、危害ラベルが食品ラベルとして誤分類されることがある。著者らの分析では、単一ヘッドの詳細分類で危害の 89% が食品として誤って分類された。そこで食品用と危害用の分類ヘッドを分け、共有表現の上で別々の判断を行わせる。この素朴な変更が、実験上は最も大きな改善をもたらした。さらに、大規模言語モデル（Large Language Model; LLM）を分類器そのものではなく、報告文の正規化に使っている点も実務的である。

## 問題設定

対象は The Food Hazard Detection Challenge の食品リコール報告である。データは 1994 年から 2022 年までの公的な食品安全機関の報告を集めたもので、6,000 件を超える。課題は二段階に分かれる。ST1 では、報告を食品カテゴリ 22 種と危害カテゴリ 10 種に分類する。ST2 では、より細かい食品ラベル 1,142 種と危害ラベル 128 種を同定する。入力は報告のタイトルと本文を連結したテキストである。評価指標はタスク用に調整された F1 で、まず危害の macro F1 を計算し、危害が正しく当たった事例に限って食品の macro F1 を計算し、両者を平均する。このため、危害と食品の対応を取り違える分類器は低く評価される。

## 提案手法

提案手法は、multi-head architecture、sequential classification、corpus normalization の三つから成る。基礎モデルは RoBERTa-large で、BERT-large、DeBERTa-v3-large、ModernBERT-large との比較で選ばれた。multi-head architecture では、食品ラベル用の分類ヘッドと危害ラベル用の分類ヘッドを分ける。損失は両ヘッドの損失を重み付きで足し合わせ、ST1 では食品と危害を同じ重み、ST2 では危害側をやや重くする。sequential classification では、まず ST1 のカテゴリ確率を求め、その確率を ST2 の詳細ラベル確率に掛け合わせる。たとえば、ある詳細食品ラベルが「魚介類」カテゴリに属するなら、その詳細ラベルの確率は ST1 で得た「魚介類」の確率によって調整される。corpus normalization では Meta-Llama-3.1-8B-Instruct をゼロショットで用い、報告文から PRODUCT と HAZARD の短い定型情報を抽出し、それを元の報告文の前に付ける。

## 結果

基準手法は RoBERTa-large の単一ヘッド分類器である。ST1 の test F1 は 0.4722、ST2 の test F1 は 0.0037 にとどまった。multi-head architecture を入れると、ST1 は 0.7998、ST2 は 0.4644 まで上がった。これは本論文で最も大きな差であり、食品と危害を別々に扱う設計が効いていることを示す。sequential classification を加えた場合、ST2 の test F1 は 0.4693 となり、小さいが改善が見られた。corpus normalization を加えた場合、ST1 の test F1 は 0.7817 と少し下がったが、ST2 は 0.4700 となった。著者らは、正規化によって 100 件以上多くの報告を正しい食品と危害に割り当てられたと述べている。一方で、三要素をすべて組み合わせた場合の ST2 は 0.4681 で、単純な足し算にはならなかった。

## 具体例

たとえば入力として、「ある会社が未申告のピーナッツを含むチョコレート菓子を自主回収する。包装表示にはナッツ由来成分が記載されておらず、ピーナッツアレルギーの消費者に健康被害のおそれがある」という報告が与えられる。LLM による正規化では、PRODUCT として「チョコレート菓子、菓子類」、HAZARD として「未申告アレルゲン、アレルゲン」のような定型情報を本文の前に置く。ST1 の分類器は、食品を菓子類、危害をアレルゲン関連として粗く判断する。ST2 の分類器は、より細かくチョコレート菓子やピーナッツを含む未申告アレルゲンを候補にする。sequential classification では、ST1 で得た菓子類とアレルゲンの確率が、ST2 の詳細候補の確率を調整する。間違えやすい点は、「ピーナッツ」を食品そのものとして分類してしまい、回収対象の食品がチョコレート菓子であることを落とす場合である。また、「表示漏れ」という表現だけを見て包装不備と解釈し、アレルギー危害として扱えない場合もある。提案手法は食品と危害を別のヘッドで見るため、この二つを一つのラベル空間で混同しにくい。

BitsAndBites at SemEval-2025 Task 9: Improving Food Hazard Detection with Sequential Multitask Learning and Large Language Models

食品リコール報告から、食品の種類と危害の種類を同時に分類する SemEval-2025 Task 9 参加論文である。
RoBERTa-large を基礎に、食品名と危害名を別々の分類ヘッドで扱い、粗いカテゴリから細かなラベルへ確率を伝える。
単一ヘッドの基準手法に比べ、粗分類で F1 0.7998、詳細分類で F1 0.4644 から 0.4700 程度まで改善した。

論文の面白いところ

この論文の主眼は、食品安全の文章分類を単なるテキスト分類として扱わない点にある。食品リコール報告では、「何が回収されたか」と「なぜ危険か」が対になって現れる。従来の分類器で両者を一つの出力空間に押し込むと、多数派の食品ラベルに引き寄せられ、危害ラベルが食品ラベルとして誤分類されることがある。著者らの分析では、単一ヘッドの詳細分類で危害の 89% が食品として誤って分類された。そこで食品用と危害用の分類ヘッドを分け、共有表現の上で別々の判断を行わせる。この素朴な変更が、実験上は最も大きな改善をもたらした。さらに、大規模言語モデル（Large Language Model; LLM）を分類器そのものではなく、報告文の正規化に使っている点も実務的である。

問題設定

対象は The Food Hazard Detection Challenge の食品リコール報告である。データは 1994 年から 2022 年までの公的な食品安全機関の報告を集めたもので、6,000 件を超える。課題は二段階に分かれる。ST1 では、報告を食品カテゴリ 22 種と危害カテゴリ 10 種に分類する。ST2 では、より細かい食品ラベル 1,142 種と危害ラベル 128 種を同定する。入力は報告のタイトルと本文を連結したテキストである。評価指標はタスク用に調整された F1 で、まず危害の macro F1 を計算し、危害が正しく当たった事例に限って食品の macro F1 を計算し、両者を平均する。このため、危害と食品の対応を取り違える分類器は低く評価される。

提案手法

提案手法は、multi-head architecture、sequential classification、corpus normalization の三つから成る。基礎モデルは RoBERTa-large で、BERT-large、DeBERTa-v3-large、ModernBERT-large との比較で選ばれた。multi-head architecture では、食品ラベル用の分類ヘッドと危害ラベル用の分類ヘッドを分ける。損失は両ヘッドの損失を重み付きで足し合わせ、ST1 では食品と危害を同じ重み、ST2 では危害側をやや重くする。sequential classification では、まず ST1 のカテゴリ確率を求め、その確率を ST2 の詳細ラベル確率に掛け合わせる。たとえば、ある詳細食品ラベルが「魚介類」カテゴリに属するなら、その詳細ラベルの確率は ST1 で得た「魚介類」の確率によって調整される。corpus normalization では Meta-Llama-3.1-8B-Instruct をゼロショットで用い、報告文から PRODUCT と HAZARD の短い定型情報を抽出し、それを元の報告文の前に付ける。

結果

基準手法は RoBERTa-large の単一ヘッド分類器である。ST1 の test F1 は 0.4722、ST2 の test F1 は 0.0037 にとどまった。multi-head architecture を入れると、ST1 は 0.7998、ST2 は 0.4644 まで上がった。これは本論文で最も大きな差であり、食品と危害を別々に扱う設計が効いていることを示す。sequential classification を加えた場合、ST2 の test F1 は 0.4693 となり、小さいが改善が見られた。corpus normalization を加えた場合、ST1 の test F1 は 0.7817 と少し下がったが、ST2 は 0.4700 となった。著者らは、正規化によって 100 件以上多くの報告を正しい食品と危害に割り当てられたと述べている。一方で、三要素をすべて組み合わせた場合の ST2 は 0.4681 で、単純な足し算にはならなかった。

具体例

たとえば入力として、「ある会社が未申告のピーナッツを含むチョコレート菓子を自主回収する。包装表示にはナッツ由来成分が記載されておらず、ピーナッツアレルギーの消費者に健康被害のおそれがある」という報告が与えられる。LLM による正規化では、PRODUCT として「チョコレート菓子、菓子類」、HAZARD として「未申告アレルゲン、アレルゲン」のような定型情報を本文の前に置く。ST1 の分類器は、食品を菓子類、危害をアレルゲン関連として粗く判断する。ST2 の分類器は、より細かくチョコレート菓子やピーナッツを含む未申告アレルゲンを候補にする。sequential classification では、ST1 で得た菓子類とアレルゲンの確率が、ST2 の詳細候補の確率を調整する。間違えやすい点は、「ピーナッツ」を食品そのものとして分類してしまい、回収対象の食品がチョコレート菓子であることを落とす場合である。また、「表示漏れ」という表現だけを見て包装不備と解釈し、アレルギー危害として扱えない場合もある。提案手法は食品と危害を別のヘッドで見るため、この二つを一つのラベル空間で混同しにくい。