NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark

生成日:

NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark

Abstract(日本語訳)

本論文は、ノルウェー語の生成型 Language Model(LM)を大規模かつ標準化された形でベンチマークするための、新しい包括的な評価スイート NorEval を導入する。NorEval は、24 個の高品質な人手作成データセットから成り、そのうち 5 個は新たに作成したものである。既存のノルウェー語ベンチマークとは異なり、NorEval はノルウェー語の言語理解と生成を対象とする幅広いタスクカテゴリを扱い、人間ベースラインを設定し、ノルウェー語の二つの公的書記標準である Bokmål と Nynorsk の双方に焦点を当てる。すべてのデータセットと 100 個を超える人手作成プロンプトの集合は LM Evaluation Harness に統合されており、柔軟で再現可能な評価を可能にする。本論文では NorEval の設計を説明し、ノルウェー語に関する 19 個のオープンソースの事前学習済み LM およびインストラクションチューニング済み LM を、さまざまな条件でベンチマークした結果を示す。ベンチマーク、評価フレームワーク、アノテーション資料は公開されている。

論文の面白いところ

この論文の価値は、単にデータセット数を増やした点ではなく、低リソース言語の LM 評価で起こりがちな穴を具体的に埋めた点にある。ノルウェー語には Bokmål と Nynorsk という二つの公的書記標準があり、Nynorsk は人口比でもベンチマーク上でも少数派になりやすい。既存の NorBench、ScandEval、SEB、NLEBench はそれぞれ有用である一方、タスクの重複、機械翻訳データへの依存、Nynorsk の不足、人間ベースラインの欠如といった制約を持っていた。NorEval はこの制約を、24 個の人手作成データセット、9 種のタスクカテゴリ、100 個超のプロンプト、LM Evaluation Harness への統合という形で扱う。評価対象も分類だけではなく、読解、機械翻訳、要約、指示追従、truthfulness まで広い。とくに、インストラクションチューニング済みモデルが必ずしもノルウェー語固有のタスクに強くならないという観察は実務上重要である。英語圏でよく効く調整が、そのまま少数言語の品質保証になるとは限らないからである。

問題設定

本論文の問題設定は、ノルウェー語 LM を標準化された方法で比較することである。比較したい対象は、事前学習済みの decoder-only LM と、対話や指示応答向けにインストラクションチューニングされた LM である。評価は 0-shot、1-shot、16-shot の in-context learning 条件を含み、プロンプトに対する log-likelihood による候補選択と、実際のテキスト生成の双方を用いる。対象タスクは、感情分析、ノルウェー語の言語知識、ノルウェー固有および世界知識、読解、commonsense reasoning、機械翻訳、要約、指示追従、truthfulness の 9 カテゴリである。通常の英語中心ベンチマークでは、こうしたタスクを一括で測れても、少数言語の書記標準差や文化固有知識を十分に測れない。NorEval はそこを主題にしている。Bokmål と Nynorsk を分けて見る設計により、総合点だけでは隠れる偏りも観察できる。

提案手法

NorEval は、19 個の既存の査読済みデータセットと、5 個の新規データセットを組み合わせて作られている。新規データセットには、ノルウェー語の句読点、慣用句、書き換え指示、要約指示など、既存ベンチマークでは扱いにくかった項目が含まれる。プロンプトは二段階で整備され、まずノルウェー語母語話者が Bokmål のプロンプトを作り、次に言語学を学ぶ学生がそれを Nynorsk に適応した。評価実装は LM Evaluation Harness に統合されているため、別の LM を後から同じ手順で測りやすい。総合評価では、ランダムベースラインから最大値までの正規化スコアに加え、順位集約のために Borda count も用いる。これは、accuracy、F1、ROUGE、BLEU のような異なる指標を単純平均するだけでは順位が歪みやすいためである。さらに 5 タスクでは、ノルウェー語母語話者による人間ベースラインも置き、モデルの得点がどの程度人間に近いかを見ている。

結果

総合的には、事前学習済み LM では NorMistral-11B が最も強く、AI-Sweden/Llama-3-8B がそれに続いた。インストラクションチューニング済み LM では Mistral-Nemo-12B-IT が高い成績を示したが、効果はタスクにより大きく異なる。感情分析と機械翻訳では比較的よい結果が得られた一方、ノルウェー語の言語知識、commonsense reasoning、truthfulness、指示追従では弱さが目立った。人間ベースラインとの比較では、Belebele で 10%、NorQuAD で 14.4%、NorOpenBookQA で 15.2%、NorCommonsenseQA で 17.8%、NorTruthfulQA Multiple Choice で 13.3% ほどモデルが下回った。例外的に、NorwAI-Llama2-7B は Norwegian Comma Benchmark(NCB)で人間を 1.2% 上回ったが、著者らはこれを一般的な人間並み能力とは解していない。Bokmål と Nynorsk の比較では、多くの多肢選択 QA と文補完タスクで Bokmål の方が高い性能を示した。インストラクションチューニング済み LM の出力分析では、英語、スウェーデン語、デンマーク語、またはそれらの混在へ切り替わる例があり、不要なアシスタント文句や入力のコピーも観察された。

具体例

たとえば、Nynorsk の慣用句補完タスクを考える。入力は「次のノルウェー語文の空所に入る慣用句の一部を補いなさい」という指示と、Nynorsk で書かれた短い文である。モデルは文脈から慣用句を認識し、Bokmål ではなく Nynorsk の形で続きだけを出力しなければならない。期待される出力は、説明文でも翻訳でもなく、空所に入る短い語句である。ここでモデルが英語で意味を説明したり、Bokmål の形に寄せたりすると、利用者から見れば一見親切でも評価上は誤りになる。インストラクションチューニング済みモデルでは、こうした「答えだけを返す」制約を外して、"How else can I help you?" のような余計な文を添える場合もある。NorEval はその種の失敗を、単なる生成品質ではなく、言語標準、形式、タスク理解の失敗として測る。したがって、ノルウェー語向け LM を検索補助、公共文書作成、教育支援に使う場合、総合的な会話能力だけでは十分でないことが分かる。