Beyond Text Compression: Evaluating Tokenizers Across Scales

生成日:

Beyond Text Compression: Evaluating Tokenizers Across Scales

論文の面白いところ

この論文の面白さは、トークナイザを「細部の実装」ではなく、モデル性能を左右しうる設計対象として正面から扱っている点にある。大規模言語モデルでは、いったん学習を始めるとトークナイザを替えることが難しい。にもかかわらず、既存モデルのトークナイザをそのまま借りる判断は、しばしば十分な検証なしに行われる。この論文は、その判断を安く、かつ比較的確かな形で行う方法を探っている。著者らは、Phi-3-mini、GPT-2、GPT-NeoX、Falcon、tiktoken、Aya 23 の各トークナイザを同じ条件のモデルに組み込み、性能差だけを見られるようにした。英語の多肢選択や要約では差が小さい一方、チェコ語、ドイツ語、ロシア語、中国語を含む翻訳では差が残る。この対比により、「よい圧縮率なら十分」という単純な見方が、多言語では成り立ちにくいことが分かる。特に、350M の Aya 23 トークナイザ付きモデルが、英語中心トークナイザを用いた 2.7B モデルに匹敵、または一部で上回るという結果は示唆的である。モデルを大きくする前に、入力単位をどう切るかを見るべきだという、実務上の含意が明瞭である。

問題設定

本論文が扱う問題は、デコーダ専用言語モデルを学習する前に、どのトークナイザを選ぶべきかというものである。トークナイザは、文章をサブワードやバイト列などの機械処理しやすい単位に分割する。分割の仕方は系列長、語彙の使われ方、希少語の扱いを変え、結果として学習効率や下流タスクの性能に影響する。外的評価として実際にモデルを学習し、翻訳や要約で比べる方法は信頼できるが、計算費用が重い。内的評価としては、同じ文章をどれだけ少ないトークンで表せるかという圧縮率がよく用いられてきた。しかし、圧縮率だけでは、未知の言語や別の文字体系に対して十分な手がかりにならない可能性がある。著者らは、英語中心の事前学習データで作ったモデルが、多言語の下流課題に移る場合を重視する。そこでは、英語では目立たないトークナイザの偏りが、ロシア語や中国語のような非ラテン文字を扱う時に表面化する。したがって問題は、安価な比較で大きなモデルの挙動を予測できるか、また圧縮率以外の内的指標でその予測を改善できるかに整理される。

提案手法

著者らは、六つの既存トークナイザを用いて、350M パラメータ級と 2.7B パラメータ級のデコーダ専用 Transformer を学習した。学習データは英語中心の FineWeb の 100B GPT-2 tokens subset であり、モデル間で主な違いがトークナイザになるように条件をそろえている。評価課題は、多肢選択ベンチマーク、X-SUM 要約、WMT21 の双方向機械翻訳である。多肢選択では ARC、HellaSwag、PIQA、Winogrande、RACE、TruthfulQA、MMLU、CrowS-Pairs などを用いる。翻訳では英語とチェコ語、ドイツ語、ロシア語、中国語の組を扱い、MetricX と chrF で評価する。内的指標としては、従来の圧縮率に加え、トークン集合の大きさ、頻度順位曲線の面積、Zipf 的な直線近似の傾き、そこからのずれを測る。Zipf の法則は、自然言語において高頻度語が少数あり、低頻度語が長い裾を作るという経験則である。この論文では、トークナイザ後のトークン分布がその形にどれだけ近いかを、下流性能の手がかりとして使う。さらに、トークナイザ同士のペア比較を学習し、Bradley-Terry モデルにより全体順位へ集約する二段階の予測枠組みを示している。

結果

英語の多肢選択課題では、2.7B モデルの方が概して高い性能を示したが、トークナイザ間の順位は安定していなかった。350M の結果から 2.7B の多肢選択性能を強く予測することは難しく、この領域では圧縮率が比較的ましな指標として残った。X-SUM 要約でも多くのトークナイザの差は小さく、Aya 23 のような多言語トークナイザが英語要約を明確に損なうわけではなかった。ただし、tiktoken は 2.7B の X-SUM で低めの値を示した。対照的に、機械翻訳ではトークナイザの差がはっきり現れた。Aya 23 は英語への翻訳、英語から各言語への翻訳の双方で一貫して良い結果を示した。350M の Aya 23 モデルは、GPT-NeoX トークナイザを用いた 2.7B モデルに近く、GPT-2 トークナイザを用いた 2.7B モデルを一部で上回った。機械翻訳では、350M と 2.7B の順位相関も高く、小さなモデルによる事前比較が有用であることが示された。内的指標では、Zipf 的分布からのずれを測る POWER LAW が単独指標として有用であり、CARDINALITY、POWER LAW、SLOPE を組み合わせるとペア比較の予測が改善した。一方で、大きな語彙は事前学習や推論の費用を増やすため、性能と速度の交換関係は残る。

具体例

たとえば、英語中心のモデルを使って「The committee approved the proposal after a long debate.」を中国語へ訳す課題を考える。英語側の入力は多くのトークナイザで無理なく分割できるが、出力側の中国語は、英語中心の語彙では細かいバイト列や不自然な断片に分かれやすい。手法は、候補となる複数のトークナイザで同じ学習条件の小規模モデルを作り、このような翻訳課題でどの分割が安定しているかを見る。期待される出力は「委员会经过长时间讨论后批准了该提案。」のように、主語、経過、承認対象が自然に保たれた文である。中国語の表記をうまく扱えないトークナイザでは、頻出しすぎる短い断片に頼り、語や句のまとまりをモデルが学びにくくなる。この場合、英語文の意味は単純でも、出力側の文字体系の違いが誤訳やぎこちない語順につながる。論文の内的指標は、実際に大きなモデルを学習する前に、トークン頻度の形からその危うさを見積もろうとするものである。小さなモデルで翻訳性能の順位を見ておけば、2.7B 規模で同じ失敗を高い費用をかけて繰り返す可能性を減らせる。