Untitled

生成日: 2026-05-24 02:20

# Untitled
## title

SpeechEE@XLLM25: Retrieval-Enhanced Few-Shot Prompting for Speech Event Extraction

## source_url

<https://aclanthology.org/2025.xllm-1.32/>

## doi

10.18653/v1/2025.xllm-1.32

## generated_at

2026-05-05T04:25:42+00:00

## 要約

- 音声イベント抽出（Speech Event Extraction; SpeechEE）を、音声認識（Automatic Speech Recognition; ASR）と大規模言語モデル（Large Language Model; LLM）によるテキスト処理のパイプラインとして解く。
- 発話にイベントが含まれるかを規則、BERT 系分類器、o1-mini の三者で判定し、その後、意味検索で近い訓練例を選んで few-shot プロンプトに差し込む。
- o1-mini と Canary の組合せで、トリガ分類 F1 63.3%、引数分類 F1 27.8%を得て、既存の SpeechEE ベースラインを上回る結果を報告している。

## 論文の面白いところ

この論文の面白さは、音声を直接構造化イベントへ写す end-to-end 型ではなく、あえて古典的に見えるパイプラインを磨いている点にある。音声をまず文字に起こし、その文字列を LLM に読ませる、という素朴な構成である。しかし、発話ごとに似た訓練例を検索してプロンプトに入れるため、固定例だけの few-shot よりも状況に合わせやすい。33 種類のイベントと22 種類の引数役割を扱うには、全種類の例を毎回並べるわけにもいかないので、この検索付きの設計は実務的である。さらに、LLM が何でもイベントとして拾ってしまう問題を、前段のイベント有無判定で抑えている。これは地味だが、実際の情報抽出ではかなり効く工夫であろう。結果として、部品ごとに観察できる透明な構成のまま、直接音声を処理する方式に近い、あるいはそれを超える性能を示している。

## 問題設定

SpeechEE は、話し言葉から「何が起きたか」「誰が関わったか」「どこで起きたか」といった構造化情報を取り出す課題である。通常のテキストイベント抽出と違い、入力は音声なので、音声認識の誤りが後段に残る。たとえば人名や地名の聞き違いは、イベントの引数抽出ではそのまま致命的になりうる。従来のパイプライン方式は、ASR の誤りが抽出器へ伝わる点で不利とされてきた。一方、音声から直接イベント構造を出す end-to-end 方式は、大量の音声イベント注釈を必要とし、内部の判断も見えにくい。この論文は、その二分法を少し崩す。高性能 ASR と LLM を組み合わせ、さらに検索で例を選ぶなら、パイプライン方式にもまだ勝ち筋がある、という問題意識で書かれている。

## 提案手法

提案手法は、ASR、イベント有無分類、トリガ認識、引数抽出、後処理からなる多段パイプラインである。ASR には Whisper large-v3 と Canary 1b を試し、得られた文字起こしを後続処理の入力にする。次に、発話がイベントを含むかどうかを、訓練データ由来のトリガ語規則、all-MiniLM-L6-v2 を用いた BERT 系分類器、o1-mini による判定で調べる。著者は、三つの方式がそろってイベントありと判断した発話を主に処理対象とし、LLM の過剰抽出を抑えた。トリガ認識では Llama3-8B、GPT-4o-mini、o1-mini を比較し、ACE2005 系のイベント型に沿ってトリガ語と型を出力させる。few-shot 例は固定せず、訓練例を all-MiniLM-L6-v2 で埋め込み、FAISS で入力発話に近い上位10件を検索してプロンプトに入れる。引数抽出でも同じ考え方を使い、現在の発話とイベント型に近い例を与え、最後に別の LLM 呼び出しで JSON 形式を整える。

## 結果

主な評価指標は、トリガ分類（Trigger Classification; TC）と引数分類（Argument Classification; AC）の precision、recall、F1 である。最良の構成は o1-mini と Canary の組合せで、TC F1 は 63.3%、AC F1 は 27.8%だった。Whisper を使った o1-mini でも TC F1 62.4%、AC F1 27.1%で、ASR の違いによる差は小さい。GPT-4o-mini は Canary で TC F1 47.1%、AC F1 19.5%、Llama3-8B は TC F1 33.5%、AC F1 13.7%にとどまった。既存研究の ACE2005-EN+ 上の数値として、TC F1 61.1%、AC F1 23.2%が示されており、データが完全に同一ではない点に注意しつつも、本手法はとくに引数分類で上回る。アブレーションでは、イベント有無分類を入れることで多くの構成で F1 が改善した。限界も明瞭で、引数分類の絶対値はまだ低く、o1-mini への依存は再現性、費用、プライバシー面で扱いにくい。それでも、音声をまず文字にし、LLM と検索を堅く組み合わせるだけでここまで行ける、という示唆は有用である。

Untitled

title

SpeechEE@XLLM25: Retrieval-Enhanced Few-Shot Prompting for Speech Event Extraction

source_url

https://aclanthology.org/2025.xllm-1.32/

doi

10.18653/v1/2025.xllm-1.32

generated_at

2026-05-05T04:25:42+00:00

要約

音声イベント抽出（Speech Event Extraction; SpeechEE）を、音声認識（Automatic Speech Recognition; ASR）と大規模言語モデル（Large Language Model; LLM）によるテキスト処理のパイプラインとして解く。
発話にイベントが含まれるかを規則、BERT 系分類器、o1-mini の三者で判定し、その後、意味検索で近い訓練例を選んで few-shot プロンプトに差し込む。
o1-mini と Canary の組合せで、トリガ分類 F1 63.3%、引数分類 F1 27.8%を得て、既存の SpeechEE ベースラインを上回る結果を報告している。

論文の面白いところ

この論文の面白さは、音声を直接構造化イベントへ写す end-to-end 型ではなく、あえて古典的に見えるパイプラインを磨いている点にある。音声をまず文字に起こし、その文字列を LLM に読ませる、という素朴な構成である。しかし、発話ごとに似た訓練例を検索してプロンプトに入れるため、固定例だけの few-shot よりも状況に合わせやすい。33 種類のイベントと22 種類の引数役割を扱うには、全種類の例を毎回並べるわけにもいかないので、この検索付きの設計は実務的である。さらに、LLM が何でもイベントとして拾ってしまう問題を、前段のイベント有無判定で抑えている。これは地味だが、実際の情報抽出ではかなり効く工夫であろう。結果として、部品ごとに観察できる透明な構成のまま、直接音声を処理する方式に近い、あるいはそれを超える性能を示している。

問題設定

SpeechEE は、話し言葉から「何が起きたか」「誰が関わったか」「どこで起きたか」といった構造化情報を取り出す課題である。通常のテキストイベント抽出と違い、入力は音声なので、音声認識の誤りが後段に残る。たとえば人名や地名の聞き違いは、イベントの引数抽出ではそのまま致命的になりうる。従来のパイプライン方式は、ASR の誤りが抽出器へ伝わる点で不利とされてきた。一方、音声から直接イベント構造を出す end-to-end 方式は、大量の音声イベント注釈を必要とし、内部の判断も見えにくい。この論文は、その二分法を少し崩す。高性能 ASR と LLM を組み合わせ、さらに検索で例を選ぶなら、パイプライン方式にもまだ勝ち筋がある、という問題意識で書かれている。

提案手法

提案手法は、ASR、イベント有無分類、トリガ認識、引数抽出、後処理からなる多段パイプラインである。ASR には Whisper large-v3 と Canary 1b を試し、得られた文字起こしを後続処理の入力にする。次に、発話がイベントを含むかどうかを、訓練データ由来のトリガ語規則、all-MiniLM-L6-v2 を用いた BERT 系分類器、o1-mini による判定で調べる。著者は、三つの方式がそろってイベントありと判断した発話を主に処理対象とし、LLM の過剰抽出を抑えた。トリガ認識では Llama3-8B、GPT-4o-mini、o1-mini を比較し、ACE2005 系のイベント型に沿ってトリガ語と型を出力させる。few-shot 例は固定せず、訓練例を all-MiniLM-L6-v2 で埋め込み、FAISS で入力発話に近い上位10件を検索してプロンプトに入れる。引数抽出でも同じ考え方を使い、現在の発話とイベント型に近い例を与え、最後に別の LLM 呼び出しで JSON 形式を整える。

結果

主な評価指標は、トリガ分類（Trigger Classification; TC）と引数分類（Argument Classification; AC）の precision、recall、F1 である。最良の構成は o1-mini と Canary の組合せで、TC F1 は 63.3%、AC F1 は 27.8%だった。Whisper を使った o1-mini でも TC F1 62.4%、AC F1 27.1%で、ASR の違いによる差は小さい。GPT-4o-mini は Canary で TC F1 47.1%、AC F1 19.5%、Llama3-8B は TC F1 33.5%、AC F1 13.7%にとどまった。既存研究の ACE2005-EN+ 上の数値として、TC F1 61.1%、AC F1 23.2%が示されており、データが完全に同一ではない点に注意しつつも、本手法はとくに引数分類で上回る。アブレーションでは、イベント有無分類を入れることで多くの構成で F1 が改善した。限界も明瞭で、引数分類の絶対値はまだ低く、o1-mini への依存は再現性、費用、プライバシー面で扱いにくい。それでも、音声をまず文字にし、LLM と検索を堅く組み合わせるだけでここまで行ける、という示唆は有用である。