Searchable Language Documentation Corpora: DoReCo meets TEITOK

生成日:

Searchable Language Documentation Corpora: DoReCo meets TEITOK

論文の面白いところ

この論文の主眼は、新しいモデルを作ることではなく、既にある貴重な言語資料を使いやすい形に置き直すことにある。DoReCo は、少数言語や危機言語を中心とする 53 言語の音声コーパスを集めた資料である。従来は、利用者がデータをダウンロードし、ELAN などの対応ツールを入れて、手元で開く必要があった。これは研究者には可能でも、授業で少し例を見たい人や、話者コミュニティの成員には負担が大きい。著者らは、この障壁を下げるために、DoReCo を TEITOK 形式へ自動変換し、ブラウザから見られる検索可能なコーパスにした。実装は地味だが、言語資源の公開においてはこの種の整備が利用頻度を大きく左右する。音声を聞き、転写を読み、形態素情報を見て、検索まで行える点に、この仕事の実用上の意義がある。

問題設定

言語フィールドワークでは、過去数十年にわたり多くの音声コーパスが作られてきた。これらはしばしば、消滅の危機にある言語を記録する目的で作成される。多くの資料は TLA や ELAR のようなアーカイブに保存されているが、コーパスとして見つけにくい場合や、アクセス制限を伴う場合がある。DoReCo は、そうした資料から質の高いものを選び、注釈を揃えて公開する試みである。しかし DoReCo でも、データは主に元ツールのファイルとして提供されていた。利用者はファイルを取得し、対応するソフトウェアを導入し、ローカル環境で扱わなければならない。論文が扱う問題は、この「資料は公開されているが、すぐには使えない」という状態である。著者らは、音声付き言語記録コーパスをオンラインで直接閲覧し、検索できるようにすることを課題としている。

提案手法

提案は、DoReCo の ELAN(EAF)ファイルとメタデータを、TEITOK が用いるトークン化済み TEI/XML 形式へ自動変換するものである。TEITOK は、注釈付きコーパスの作成、管理、可視化、検索を行うためのオンライン基盤である。変換スクリプトは、DoReCo のメタデータ表を読み、各行に対応する TEI/XML ファイルを作る。発話単位は utterance として配置され、開始時刻、終了時刻、話者、翻訳などの情報が属性として付与される。語は token として作られ、形態素情報がある場合はその内部に morpheme が置かれる。検索対象が語単位であるため、形態素列や音素表記は token の属性としても保持される。さらに、フィラー、長音化、言い直し、外来語句、不明瞭部分、休止などの転写記号は、TEI の標準的なマークアップへ変換される。これにより、転写中の記号が語句検索を妨げにくくなる。

結果

作成された DoReCo-TEITOK では、各ファイルを複数の見方で閲覧できる。通常の言語学的表示では、転写本文の上に音声が置かれ、語にマウスを重ねると形態素分解、グロス、品詞、X-SAMPA 表記などが表示される。音声中心の表示では、波形と発話が連動し、発話をクリックして該当箇所を再生できる。再生中には現在発音されている語が強調される。既定の表示は interlinear glossed text(IGT)であり、発話、語、語ごとの注釈、形態素、翻訳を順に確認できる。検索には Corpus WorkBench が使われ、Corpus Query Language(CQL)で語形、音声表記、品詞、グロス、話者の性別や年齢、文書ジャンルなどを組み合わせられる。検索結果は発話単位で示され、音声がある場合はその場で再生できる。ただし、TEITOK 版は主にテキスト情報の閲覧と検索を目的としており、音素・形態素・語単位の細かな時間整列を用いる音声分析では、従来どおり ELAN や Praat が適している。

具体例

たとえば、授業で Evenki の物語資料から「始める」という意味をもつ動詞形の例を探したいとする。利用者は DoReCo-TEITOK の検索画面で、語形やグロス、品詞を条件にして発話を探す。該当する発話が見つかると、画面には Evenki の語、その形態素分解、各形態素のグロス、発話全体の英訳が並んで表示される。論文中の例では、一語から成る発話が TEI/XML では発話要素の中に token として置かれ、その内部に複数の morpheme が入る。利用者は表記だけでなく、音声が公開されていれば発話を再生し、どの時刻にその語が現れるかも確認できる。間違えやすい点は、元の転写に含まれる休止や言い直しの記号を、語の一部として検索してしまうことである。TEITOK 版ではそれらを TEI マークアップに移すため、検索は語列に集中しやすい。一方で、音声学的な長さや細かな時間整列を分析したい場合は、このオンライン表示だけで完結するとは限らない。