Identifying Filled Pauses in Speech Across South and West Slavic Languages

生成日:

Identifying Filled Pauses in Speech Across South and West Slavic Languages

論文の面白いところ

この論文は、文字起こしに現れにくい発話の要素を、文字ではなく音そのものから拾う点に主眼を置く。フィラーは会話の順番交替や発話計画に関わるが、通常の転写では省かれがちである。そのため、会話研究や話し言葉コーパスの分析では、録音に戻らなければ観察できない場合が多い。本研究は、スロベニア語だけで学習した検出器を、近縁の南スラヴ語とやや離れた西スラヴ語にも適用する。結果は、言語間の音響差があっても、一定の精度で移植できることを示す。とくに、ポーランド語のフィラーは音響的には他言語と異なる位置に現れたが、精度は低くなかった。この事実は、モデルが単なる母音の形だけを見ているのではなく、周囲の音声文脈も利用している可能性を示す。話し言葉の実用的なアノテーションを広げる研究として、読みやすく、応用の道筋も明瞭である。

問題設定

対象は、音声中の filled pause、すなわち発話の途中に挿入される母音的または鼻音的なためらい音である。これらは「語」ではないが、発話の構造や話者の処理状態を調べるうえで意味をもつ。多くの自動音声認識や公開転写では、こうした音は省略されるか、表記が揺れる。したがって、テキストだけを入力にする方法では検出が難しい。論文は、録音そのものを入力とし、各時点にフィラーが存在するかを判定する課題として定式化する。学習にはスロベニア語の ROG データセットを用い、評価には同じスロベニア語のテスト集合と、ParlaSpeech から作った四つの言語のテスト集合を使う。四つの追加評価集合は、クロアチア語、セルビア語、チェコ語、ポーランド語の議会音声から構成される。評価単位は 20 ミリ秒フレームそのものではなく、フィラーの開始時刻と終了時刻からなる事象単位である。この設定により、下流のコーパス分析で必要となる「そのフィラーを拾えたか」を直接測る。

提案手法

手法は、事前学習済み音声モデル Wav2Vec2Bert を音声フレーム分類として微調整する単純な構成である。入力音声は 20 ミリ秒ごとの系列として扱われ、各フレームにフィラーあり、またはなしの二値ラベルを与える。スロベニア語の訓練データは 30 秒のチャンクに分割され、50 パーセントの重なりを持たせて利用される。最終設定では、学習率 3×10^-5、20 エポック、勾配蓄積ステップ 4 が使われた。モデルの出力はフレーム列なので、評価時には連続する陽性フレームを時間範囲に変換する。人手注釈ではフィラーの前後の無音まで含める場合があるため、予測範囲と正解範囲が重なれば正検出とみなす。さらに、ParlaSpeech 由来の評価では、切り出し境界に不完全な語が混じることがある。このため、発話片の冒頭と末尾の予測、および 80 ミリ秒未満の短すぎる予測を捨てる後処理も調べている。設計は複雑ではないが、評価方法を実利用に近づけている点が重要である。

結果

スロベニア語のテストでは、後処理なしで再現率 0.973、適合率 0.914、F1 0.943 であった。後処理ありでは、再現率 0.959、適合率 0.922、F1 0.940 となり、手で切り出された同言語データでは後処理の利得はほぼない。クロアチア語では後処理後 F1 が 0.913、セルビア語では 0.940 であった。チェコ語では 0.874 と比較的低く、ポーランド語では 0.924 であった。全体として、スロベニア語だけで微調整しても、他のスラヴ語への低下は限定的である。二重注釈を行ったクロアチア語とセルビア語では、人間同士の一致も高かったが、モデルの数値はそれに近い、あるいは上回る場合があった。そこで著者らは、各言語 20 件の不一致例を音声学者に確認させた。その結果、人間は実在する短いフィラーを見落とすことが多く、モデルは長く伸ばされた母音、鼻音、背景雑音をフィラーと見なすことがあった。全予測の約 95 パーセントでは人間とモデルが一致しており、実用的な話し言葉コーパス処理には十分に使える水準と述べられる。

具体例

たとえば、クロアチア語の議会発言に、話者が「この提案は、えー、来月の委員会で扱います」と述べる短い音声片があるとする。通常の文字起こしでは「この提案は来月の委員会で扱います」とだけ記され、途中のためらい音は消えることが多い。この手法は文字起こしではなく録音を受け取り、20 ミリ秒ごとにフィラーらしい区間を陽性として印を付ける。連続する陽性フレームがまとまれば、「えー」に相当する開始時刻と終了時刻を持つ一つの事象として出力される。期待される出力は、たとえば 3.42 秒から 3.71 秒までが filled pause である、という時間範囲である。これにより、後から研究者は、どの語の前で話者がためらったか、どの発話位置でフィラーが多いかを調べられる。誤りやすいのは、発話の冒頭で切れた語尾や、長く引き伸ばされた接続詞が、フィラーに似た音響をもつ場合である。また、鼻音の「ん」に近い持続音や背景の咳が混じる場合にも、モデルはフィラーとして拾うことがある。反対に、人間の注釈者は短く弱いフィラーを聞き逃すことがあり、この論文ではその種の見落としが機械より多いと報告している。