On the Path to Make Ukrainian a High-Resource Language

生成日:

On the Path to Make Ukrainian a High-Resource Language

論文の面白いところ

この論文は、新しいモデルだけでなく、その前提となる言語資源そのものを主題にしている。英語では兆単位の訓練データと整理されたデータ処理環境がある一方、ウクライナ語は話者数が多くても、多言語モデルの訓練集合では十分な量と品質を持ちにくい。著者らはこの差を、Kobza という約 600 億トークンのコーパスとして具体化した。CulturaX、FineWeb 2、HPLT 2.0、UberText 2.0、Ukrainian News を統合し、重複除去を全体にかけている点が実務的である。単にウェブを広く集めるのではなく、既存の整理済みデータを合わせ、後段の訓練で使いやすくする方針を採る。得られたコーパスは約 9,700 万文書、Snappy 圧縮 Parquet で 474GB であり、各文書には出典、時刻、URL などのメタデータが付く。長文の割合も記録されており、8,192 トークン対応モデルの訓練に必要な土台を示している。モデルの改善を、アーキテクチャの工夫だけでなく、公開データの量、重複、文書長、メタデータという地味な条件から扱うところに読みどころがある。

問題設定

多言語モデルは多数の言語を扱うが、訓練データの分布は均等ではない。英語は量も品質も高いデータが豊富で、データ洗浄や合成の道具も整っている。これに対して、ウクライナ語のような中規模・低資源言語は、話者数や社会的需要に比べて、事前訓練用のデータが少ない。既存の多言語コーパスにもウクライナ語は含まれるが、言語判定や品質フィルタの設定が高資源言語向けである場合がある。そのため、量はあっても、重複、雑音、機械翻訳文、質の低いウェブ文書が残りやすい。ウクライナ語専用の大規模モデルを作るには、まず訓練に使える公開データを十分な規模で整備する必要がある。さらに、文書単位の理解や検索などでは、短い入力だけを前提にしたエンコーダでは足りない。論文は、コーパスの拡充と長文対応のエンコーダ事前訓練を一体の課題として扱っている。

提案手法

著者らはまず、複数の既存コーパスを統合して Kobza を作る。最終的な内訳は、CulturaX が約 150 億トークン、FineWeb 2 が約 191 億、HPLT 2.0 が約 207 億、UberText 2.0 が約 29 億、Ukrainian News が約 19 億である。重複除去は二段階で行われる。第一段階では URL やタイムスタンプなどのメタデータを用い、同じ文書が別の前処理を経て混入した場合を除く。この方法で、正規化した最長共通部分列に基づく類似度の平均は 92.9% とされ、全体の約 12% が削除される。第二段階では 5-gram による MinHashLSH を用い、しきい値 0.7 で近似的な Jaccard 類似度を見て、さらに約 33% の文書を除いている。その後、このデータに英語 Wikipedia 約 60 億トークンを加え、英語の固有名や技術語を含む文章にも対応しやすくする。モデルは ModernBERT Large を土台にした 28 層、隠れ次元 1,024、約 4.1 億パラメータのエンコーダで、LiBERTa v2 の 64,000 語彙トークナイザを用いる。英語版 ModernBERT の重みを再利用し、語彙埋め込みだけは英語・ウクライナ語の並行コーパスから得た対応関係に基づく Trans-Tokenization で初期化する。訓練は 1,024 トークン長で 1,400 億トークン、その後 8,192 トークン長への拡張で 200 億トークンを用いる。

結果

内的評価では、Modern-LiBERTa は LiBERTa v2 より良いマスク言語モデリング性能を示した。Universal Dependencies では困惑度が 15.51 から 8.96 に下がり、トークン正解率は 52.81% から 58.82% に上がった。Spivavtor では困惑度が 54.07 から 18.01、UA-GEC では 76.00 から 22.22、Wikipedia では 8.77 から 4.28 へ改善している。下流タスクでは、NER-UK、NER-UK 2.0、WikiANN、品詞タグ付け、ニュース分類で比較している。Modern-LiBERTa は NER-UK で 91.66、WikiANN で 93.37、Universal Dependencies の品詞タグ付けで 98.78、ニュース分類で 96.37 を得た。WikiANN では比較対象の中で最も高く、英語 Wikipedia を訓練に混ぜた効果が出た可能性がある。一方、NER-UK 2.0 では 84.17 で、最良の WECHSEL-RoBERTa の 85.72 には及ばない。多くの評価は短い入力で行われているため、8,192 トークンの長文処理能力は十分には測られていない。著者らも、ウクライナ語の情報検索ベンチマークが乏しいため、長文エンコーダとしての強みを直接評価しにくいと述べている。

具体例

たとえば、ウクライナ語のニュース記事が入力として与えられるとする。記事には、キーウで開かれた国際会議、出席した政府機関、日付、外国企業名が含まれている。短い文だけを見る固有表現認識では、英語表記の企業名や略称が人名なのか組織名なのか判別しにくいことがある。Modern-LiBERTa は、事前訓練でウクライナ語の大規模文書と英語 Wikipedia の一部を読んでいるため、周辺文脈と背景知識を使って、企業名を組織、都市名を地名、政府機関名を組織として出力することが期待される。記事が長い場合は、冒頭で導入された会議名が後半では略称だけで現れることもある。8,192 トークンの入力長が使えるなら、前半の説明を切り捨てずに後半の表現を解釈できる余地がある。間違えやすい点は、ウェブ由来の訓練データに雑音があるため、同じ略称が別分野で使われる場合や、機械翻訳調の文章が混じる場合である。また、論文中の評価では長文の検索や文書単位分類が十分に扱われていないため、この長文処理の利点は今後のベンチマークで確かめる必要がある。