Untitled
Pretraining and Benchmarking Modern Encoders for Latvian 著者: Arturs Znotins 会議: Proceedings of the Second Workshop on Language Models for Low-Resource Languages (LoResLM 2026) URL: https://aclanthology.org/2026.loreslm-1.40/
どんな論文か
ラトビア語向けのエンコーダ専用モデルを、いまの訓練レシピで作り直した論文です。LLM の話題はデコーダ型に寄りがちですが、分類、系列ラベリング、抽出型QA、検索用埋め込みなどでは、BERT 系のエンコーダがまだ普通に必要です。問題は、ラトビア語のような低リソース寄りの言語だと、多言語モデルの中で語彙や容量を他言語と分け合うため、性能が伸びにくいことです。
著者は RoBERTa、DeBERTaV3、ModernBERT をベースに、ラトビア語専用のモデル群を事前学習しています。ModernBERT 系では長文対応版も作っており、最大 8,192 トークンまで扱える設定です。あわせて、既存のラトビア語モデルや多言語モデルをまとめて比べられる評価ベンチマークも整えています。
狙いはかなり実務寄りです。巨大な汎用LLMで全部やるのではなく、ラトビア語の分類やNER、構文解析、語義曖昧性解消を、軽めのエンコーダでどこまで安定して処理できるかを見ています。
何を調べたか
- 事前学習データは、FineWeb2、HPLT-v2、ニュース、ツイート、書籍、学術テキスト、Wikipedia、Latvian National Corpus Collection などを混ぜたラトビア語コーパス。フィルタリングと重複除去後で 64.3 億語。
- すべての主要モデルを 100B トークンで事前学習。語彙は HPLTv2 のラトビア語 tokenizer、語彙サイズは 32,768。
- 比較した自作モデルは lv-deberta-base 111M、lv-roberta-base 124M、lv-mbert-mini 59M、lv-mbert-base 136M、lv-mbert-large 377M。
- 比較対象は mdeberta-v3-base、XLM-R base/large、mmBERT、mBERT、hplt-bert-base-lvs、litlat-bert、lvbert など。診断タスクでは GPT-5 と gemma-3-27b-it も参考比較している。
- 軽量診断タスクは LTEC 感情分類、ScaLA 文法容認性、FSNER 固有表現認識、WikiQA 抽出型QA、COPA 常識推論。
- 追加で Latvian UD treebank v2.16 を使った品詞、形態素特徴、係り受け解析と、Latvian WordNet 由来の新しい WSD データセットで評価。WSD は 1,821 lemma entries、5,459 senses、54,364 labeled instances。
- 指標は MCC、macro-F1、micro-F1、QA の F1/EM、UD の UPOS/XPOS/UFeats/Lemmas/UAS/LAS など、WSD の context-sense matching accuracy と sense selection accuracy。
主な結果
いちばん安定して強かったのは lv-deberta-base です。111M パラメータなので、560M の xlm-roberta-large と比べると約 5 分の 1 のサイズですが、軽量診断、UD、WSD を通してかなり強い結果を出しています。たとえば軽量タスクでは、LTEC macro-F1 が 69.3、ScaLA macro-F1 が 81.5、FSNER は MISC 除外 micro-F1 が 89.0、WikiQA F1 が 69.2、COPA accuracy が 76.2 でした。
特に差が大きかったのは COPA です。多くの多言語モデルや既存ラトビア語エンコーダは MCC が 20 未満にとどまる一方、lv-deberta-base は MCC 52.5 まで伸びています。ただし、ここはLLMが強く、GPT-5 は COPA で MCC 96.9、accuracy 98.5 に達しています。エンコーダが万能というより、タスクによって使い分けが必要、という結果に見えます。
UD では上位モデル同士の差は小さいものの、lv-deberta-base が平均的に強く、LAS 92.9、MLAS 87.7、BLEX 89.1。WSD でも lv-deberta-base がトップで、context-sense matching accuracy 83.6%、sense selection accuracy 78.9% でした。ModernBERT 系は長文処理と訓練効率の利点があり、サイズを mini から large に上げると多くのタスクで改善しますが、全体では lv-deberta-base に届いていません。
ポイント
面白いのは、「低リソース言語なら、とりあえず大きな多言語モデルを使えばよい」とは言い切れないところです。ラトビア語だけに絞って、コーパスをきちんと作り、DeBERTaV3 のような訓練目的を使うと、かなり小さいモデルでも大きな多言語モデルに勝てる。これは予算やレイテンシが厳しい現場ではありがたい話です。
一方で、ModernBERT の結果は少し渋いです。長文対応や高速化は魅力的で、抽出型QAでは lv-mbert-large がエンコーダ中トップの WikiQA F1 73.6 / EM 59.6 を出しています。ただ、短い分類や構文寄りの評価まで含めると、DeBERTaV3 ベースの方が強い。長文を処理したいのか、通常のNLU性能を取りに行くのかで選ぶモデルが変わりそうです。
注意点もあります。学習はラトビア語単独なので、コードスイッチングや多言語入力では多言語モデルの方が有利な場面が残ります。評価も検索・埋め込み品質、ドメインシフト、長文タスクそのものを広く測ったわけではありません。とはいえ、モデルと評価資源を公開しているので、ラトビア語NLPの土台としてはかなり使いやすい仕事です。
一言でいうと、ラトビア語では「小さめの専用エンコーダをちゃんと事前学習する」だけで、かなり強いベースラインになる、という論文です。