Combining Automated and Manual Data for Effective Downstream Fine-Tuning of Transformers for Low-Resource Language Applications

生成日: 2026-05-24 02:20

# Combining Automated and Manual Data for Effective Downstream Fine-Tuning of Transformers for Low-Resource Language Applications
- 低資源言語の形態素タグ付けについて、自動注釈データと手作業の注釈データを併用する二段階のファインチューニングを検討した論文である。
- 対象はウドムルト語であり、曖昧性を残した自動ラベルを先に学習し、その後に人手で一意にしたラベルで学習する。
- 語彙適応と組み合わせると、mBERT と ruBERT で通常のファインチューニングより約 5 ポイント高いトークン精度が得られた。

## 論文の面白いところ

この論文は、低資源言語でよく生じる実務上の制約を、かなり素直な形で扱っている。人手で完全に曖昧性を解いたデータは少ないが、規則ベースの解析器なら曖昧な候補を多く付けたデータを比較的作りやすい、という状況である。著者らは、この曖昧な注釈を捨てず、まずモデルに「あり得るラベルの集合」を覚えさせる。ついで、人手で一つに決めたラベルを用いて、文脈に応じた選択を学ばせる。方法は大がかりな生成モデルや複雑な推論に頼らず、トークン分類器の訓練手順を変えるものである。そのため、同じような言語資料を持つ研究者や言語コミュニティに移しやすい。結果も派手ではないが、対象言語の事前学習済みモデルがない場合の補助手段として読みやすい。最良モデルと訓練コードが公開されている点も、応用上の価値を持つ。

## 問題設定

低資源言語では、事前学習済み言語モデル（pre-trained language model; PLM）の事前学習データに対象言語がほとんど含まれないことがある。さらに、形態素解析や品詞タグ付けのような下流タスクでは、質の高い人手注釈が限られる。ウドムルト語のような言語では、文献資料やコーパスが存在しても、深層学習モデルを訓練するための一貫した注釈データは十分とは限らない。形態素タグ付けでは、各語に品詞と形態素特徴を結合したラベルを割り当てる。問題になるのは、同じ語形が文脈によって複数の品詞や特徴を取り得る場合である。規則ベースの解析器は候補を列挙できるが、その中から文脈上正しい一つを選ぶことは苦手である。人手でこの曖昧性を解くには専門家の作業が必要になる。論文は、この「曖昧な自動注釈は多いが、確定した人手注釈は少ない」という条件で、Transformer 系モデルをどのように訓練するかを問うている。

## 提案手法

著者らは、形態素解析をトークン分類問題として定式化する。入力文の各語に対し、Transformer エンコーダと線形層がラベルの確率分布を出す。単語が複数のサブトークンに分割される場合は、最初のサブトークンだけを損失計算に用いる。訓練は二段階で行われる。第一段階は pre-fine-tuning（PFT）で、規則ベース解析器から得た曖昧な自動ラベル付きデータを使う。ここでは、一つの語に複数の疑似正解ラベルが付くことを許すが、通常の多ラベル分類にはしない。正解候補全体に割り当てられた確率の和を大きくするように損失を定め、候補内のどれを高くするかには強く介入しない。第二段階は通常の fine-tuning（FT）で、人手により一意に決められたラベルを用いて、候補の中から文脈に合うラベルを選ばせる。さらに、対象言語に合わせて WordPiece 語彙を作り直す語彙適応（vocabulary adaptation; VA）も試している。

## 結果

実験対象はウドムルト語の形態素タグ付けである。曖昧な自動注釈データは標準文語ウドムルト語の Tsakorpus から作られ、約 55.8 万語、6.4 万文から成る。人手注釈データは LingvoDoc に由来し、約 10 万語、1.2 万文である。モデルには mBERT、ロシア語向け ruBERT、500 以上の言語で事前学習された Glot500-m が用いられた。mBERT と ruBERT では、通常の fine-tuning だけではトークン精度がそれぞれ 86.28 と 86.35 であった。語彙適応と PFT と FT を組み合わせると、mBERT は 91.38、ruBERT は 91.24 まで上がった。これは、各処理を単独で足すよりも、併用した場合に効果が大きいことを示す。Glot500-m は対象言語を事前学習に含むため、FT のみで 92.44 と高く、PFT を加えると 93.25 となった。一方で Glot500-m への語彙適応は成績を下げており、すでに対象言語を含むモデルでは語彙の置換が常に有効とは限らない。

## 具体例

たとえば、ウドムルト語のある文に、英語の records に相当するような、語形だけでは名詞にも動詞にも見える語が含まれているとする。規則ベースの解析器は、その語に「名詞・複数」と「動詞・三人称単数・現在」のような候補をまとめて付けることができる。しかし、この段階では前後の語を見てどちらが正しいかまでは決めない。提案手法の第一段階では、モデルはその語が少なくともこの候補集合の中に入ることを学ぶ。第二段階では、人手注釈済みの文を使い、主語や目的語、周囲の語順を手がかりに、一つの正しいラベルを選ぶように調整される。期待される出力は、文中の各語に対して品詞と形態特徴が一つずつ付いた列である。間違えやすいのは、候補集合までは合っているが、文脈上の選択を誤る場合である。論文の評価で homonymous token、すなわち曖昧な語だけを別に測っているのは、この種類の誤りが低資源言語の形態素解析で特に重要だからである。

Combining Automated and Manual Data for Effective Downstream Fine-Tuning of Transformers for Low-Resource Language Applications

低資源言語の形態素タグ付けについて、自動注釈データと手作業の注釈データを併用する二段階のファインチューニングを検討した論文である。
対象はウドムルト語であり、曖昧性を残した自動ラベルを先に学習し、その後に人手で一意にしたラベルで学習する。
語彙適応と組み合わせると、mBERT と ruBERT で通常のファインチューニングより約 5 ポイント高いトークン精度が得られた。

論文の面白いところ

この論文は、低資源言語でよく生じる実務上の制約を、かなり素直な形で扱っている。人手で完全に曖昧性を解いたデータは少ないが、規則ベースの解析器なら曖昧な候補を多く付けたデータを比較的作りやすい、という状況である。著者らは、この曖昧な注釈を捨てず、まずモデルに「あり得るラベルの集合」を覚えさせる。ついで、人手で一つに決めたラベルを用いて、文脈に応じた選択を学ばせる。方法は大がかりな生成モデルや複雑な推論に頼らず、トークン分類器の訓練手順を変えるものである。そのため、同じような言語資料を持つ研究者や言語コミュニティに移しやすい。結果も派手ではないが、対象言語の事前学習済みモデルがない場合の補助手段として読みやすい。最良モデルと訓練コードが公開されている点も、応用上の価値を持つ。

問題設定

低資源言語では、事前学習済み言語モデル（pre-trained language model; PLM）の事前学習データに対象言語がほとんど含まれないことがある。さらに、形態素解析や品詞タグ付けのような下流タスクでは、質の高い人手注釈が限られる。ウドムルト語のような言語では、文献資料やコーパスが存在しても、深層学習モデルを訓練するための一貫した注釈データは十分とは限らない。形態素タグ付けでは、各語に品詞と形態素特徴を結合したラベルを割り当てる。問題になるのは、同じ語形が文脈によって複数の品詞や特徴を取り得る場合である。規則ベースの解析器は候補を列挙できるが、その中から文脈上正しい一つを選ぶことは苦手である。人手でこの曖昧性を解くには専門家の作業が必要になる。論文は、この「曖昧な自動注釈は多いが、確定した人手注釈は少ない」という条件で、Transformer 系モデルをどのように訓練するかを問うている。

提案手法

著者らは、形態素解析をトークン分類問題として定式化する。入力文の各語に対し、Transformer エンコーダと線形層がラベルの確率分布を出す。単語が複数のサブトークンに分割される場合は、最初のサブトークンだけを損失計算に用いる。訓練は二段階で行われる。第一段階は pre-fine-tuning（PFT）で、規則ベース解析器から得た曖昧な自動ラベル付きデータを使う。ここでは、一つの語に複数の疑似正解ラベルが付くことを許すが、通常の多ラベル分類にはしない。正解候補全体に割り当てられた確率の和を大きくするように損失を定め、候補内のどれを高くするかには強く介入しない。第二段階は通常の fine-tuning（FT）で、人手により一意に決められたラベルを用いて、候補の中から文脈に合うラベルを選ばせる。さらに、対象言語に合わせて WordPiece 語彙を作り直す語彙適応（vocabulary adaptation; VA）も試している。

結果

実験対象はウドムルト語の形態素タグ付けである。曖昧な自動注釈データは標準文語ウドムルト語の Tsakorpus から作られ、約 55.8 万語、6.4 万文から成る。人手注釈データは LingvoDoc に由来し、約 10 万語、1.2 万文である。モデルには mBERT、ロシア語向け ruBERT、500 以上の言語で事前学習された Glot500-m が用いられた。mBERT と ruBERT では、通常の fine-tuning だけではトークン精度がそれぞれ 86.28 と 86.35 であった。語彙適応と PFT と FT を組み合わせると、mBERT は 91.38、ruBERT は 91.24 まで上がった。これは、各処理を単独で足すよりも、併用した場合に効果が大きいことを示す。Glot500-m は対象言語を事前学習に含むため、FT のみで 92.44 と高く、PFT を加えると 93.25 となった。一方で Glot500-m への語彙適応は成績を下げており、すでに対象言語を含むモデルでは語彙の置換が常に有効とは限らない。

具体例

たとえば、ウドムルト語のある文に、英語の records に相当するような、語形だけでは名詞にも動詞にも見える語が含まれているとする。規則ベースの解析器は、その語に「名詞・複数」と「動詞・三人称単数・現在」のような候補をまとめて付けることができる。しかし、この段階では前後の語を見てどちらが正しいかまでは決めない。提案手法の第一段階では、モデルはその語が少なくともこの候補集合の中に入ることを学ぶ。第二段階では、人手注釈済みの文を使い、主語や目的語、周囲の語順を手がかりに、一つの正しいラベルを選ぶように調整される。期待される出力は、文中の各語に対して品詞と形態特徴が一つずつ付いた列である。間違えやすいのは、候補集合までは合っているが、文脈上の選択を誤る場合である。論文の評価で homonymous token、すなわち曖昧な語だけを別に測っているのは、この種類の誤りが低資源言語の形態素解析で特に重要だからである。