Structure Modeling Approach for UD Parsing of Historical Modern Japanese

生成日:

Structure Modeling Approach for UD Parsing of Historical Modern Japanese

論文の面白いところ

この論文は、古い日本語を解析するには最新の汎用パーサをそのまま移すより、コーパスがどのように作られたかをまねる方がよい場合がある、と述べている。対象は明治期の日本語であり、現代日本語とは語彙、表記、助動詞、文体が異なる。Universal Dependencies(UD)は多言語で共通した依存構造の枠組みだが、日本語UDの注釈は文節、短単位、長単位といった日本語固有の分析を土台にしている。著者らは、この土台を捨てずに、形態素解析、文節解析、文節係り受け解析、UDへの規則変換を順に行う。比較相手は、BERTを用いたBiaffineパーサやUDifyなどの深層学習型UDパーサである。深層学習型の手法は、現代日本語では高い性能を示すが、明治期日本語に移すと文節内部の構造を崩しやすい。提案手法は派手な生成モデルではないが、低い層の言語構造を保つため、歴史資料の解析では実用上の利点がある。とくに、人文学の注釈作業では、最終的な木だけでなく、どの語がどの文節に入るかも確認の対象になる。この点で、本研究は性能表の数値だけでなく、作業に使える解析とは何かを問うている。

問題設定

本研究の課題は、現代日本語の注釈資源を用いて、近代日本語、すなわち明治期の文献にUD依存構造を付与することである。評価対象には、UD_Japanese-Modernの明六雑誌のほか、unidic2udに含まれる『雪国』と『舞姫』の例が用いられる。現代日本語にはUD_Japanese-BCCWJやUD_Japanese-GSDのような比較的大きな資源がある。一方で、近代日本語のUD資源は小さく、直接に大きなモデルを訓練しにくい。そこで、現代日本語で学習したパーサを近代日本語へゼロショットで移すことが自然な比較対象になる。しかし、日本語では空白で単語が区切られず、短単位語(SUW)、長単位語(LUW)、文節の切り方が解析の出発点になる。UDの依存ラベルも、語の品詞や文節内部の代表語に依存して決まることが多い。したがって、最終的なUD木だけを一気に予測する方法では、途中の構造がずれると、人手注釈の補助として扱いにくくなる。論文の問いは、深層学習型パーサの転移能力と、日本語の資源構築手順に沿った構造モデリングのどちらが、近代日本語に対して有効かである。

提案手法

提案手法は、文を一つのモデルで直接UD木にするのではなく、複数の解析段階を順につなぐ。まず、MeCabを用いて短単位語の形態素解析を行う。辞書にはUniDicを用い、現代語だけでなく歴史的な日本語にも対応できる基盤を使う。次に、Monakaにより長単位語境界、文節境界、長単位語の品詞を推定する。著者らは、平安期から室町期の資料と現代日本語UDコーパスの情報を合わせ、複数時代を扱う一つの文節解析モデルを作っている。その後、CaboChaで文節間の係り受けを解析する。CaboChaはSupport Vector Machine(SVM)に基づく文節係り受けパーサであり、入力された短単位語と文節情報をもとに文節間の依存を出す。最後に、日本語UDコーパスの作成で用いられた規則に従って、文節係り受けをUDの語間依存へ変換する。この変換では、文節の中心となる短単位語を選び、文節内の語をその代表語に従属させ、文節間の関係には品詞情報などからUDラベルを割り当てる。比較のために、著者らは東北大学の日本語BERTを用いたDiaParser、75言語のUDで学習されたUDify、GiNZA、unidic2udも評価している。

結果

文節・長単位語解析では、複数時代を合わせて学習した一つのMonakaモデルが、時代別に学習したモデルとほぼ同等の成績を示した。これは、明治期日本語が現代語と室町以前の古い日本語の中間にあるという見立てと合う。UD解析の主な評価には、係り先とラベルをともに見るLabeled Attachment Score(LAS)と、ラベルを見ないUnlabeled Attachment Score(UAS)が用いられた。提案手法は、BCCWJでUAS 92.52、LAS 91.32、GSDでUAS 92.42、LAS 91.18を得た。近代日本語では、『雪国』でUAS 89.29、LAS 85.71、『舞姫』でUAS 92.45、LAS 77.36、明六雑誌でUAS 83.40、LAS 63.91であった。BERTを用いたjBERTは、明六雑誌でUAS 79.41、LAS 57.88にとどまり、UDifyも同資料でUAS 74.99、LAS 55.62であった。提案手法は多くの設定で最も高いか、それに近い値を示し、とくに近代日本語への転移で差が出た。明六雑誌では全体にLASが低く、著者らは、現代日本語や他の近代資料と注釈基準が異なること、品詞タグの不一致が依存ラベルに影響することを指摘している。依存ラベル別の分析では、提案手法はauxなど文節内部の情報が効く関係で誤りが少ない。一方、oblやnsubjのような格関係ではBERT系の方がわずかによい場合があり、意味的関係の転移には深層表現を取り込む余地がある。

具体例

入力として、明治期文献に現れる「通患たるにあらず」という句を考える。これは大意として「一般の問題ではない」という意味で、論文中の事例にも用いられている。提案手法は、まず「通患」「たる」「に」「あら」「ず」のように短単位語へ分け、品詞を推定する。次に、「通患たるに」と「あらず」という二つの文節を認識し、前の文節が後ろの文節に係ると判断する。そのうえで、文節内の語どうしの関係と、文節間の関係をUDの形式に変換する。期待される出力は、句全体が否定表現としてまとまり、文節内部の助動詞的な要素がばらばらに扱われない依存構造である。深層学習型のjBERTでは、「に」を現代語の格助詞のように見てcaseとするなど、歴史的な助動詞連鎖を誤ることがある。提案手法でも、文節間のラベルが金標準とずれる場合はあるが、文節そのもののまとまりは比較的保たれる。この差は、研究者が後から解析結果を直す場面で大きい。語のまとまりが壊れていなければ、ラベルの修正は比較的しやすいが、文節内部の構造まで崩れると、注釈者は土台から確認し直す必要がある。