Span Labeling with Large Language Models: Shell vs. Meat
- 英語能力試験の自由記述では、主張や根拠そのものではなく、文章をつなぐための定型句が多く現れる。この論文は、そのような「shell language」を、本文の中の span として検出する方法を扱う。
- 著者らは少量の人手アノテーションで rubric を作り、LLM に XML 風のタグを出力させて span ラベルを付ける。reasoning model は単体でもよく働き、複数モデルの ensemble はさらに安定した。
- ただし、LLM ラベルで ModernBERT を訓練しても、人手ラベルに対する性能は十分ではない。LLM の癖を小型モデルがそのまま学ぶという、実務上よく起こる問題が見えている。
Abstract(日本語訳)
本論文では、大規模言語モデル(LLM)を用いてテキストの span にラベルを付ける方法を提示し、それを shell language の同定に適用する。shell language とは、テキストの主要な内容を構成するのではなく、構造的または接続的な役割を果たす言語表現である。近年の複数の LLM を比較し、それらの「アノテーション」を少量の人手で整理したテストセットに対して評価する。また、LLM がアノテーションした数千件の例を用いて、より小さい教師ありモデルを訓練する。ここで述べる方法により、大規模な人手アノテーションや専門的な特徴量設計に頼らず、複雑または微妙な言語現象を学習できるワークフローが可能になる。
論文の面白いところ
この論文の中心は、LLM を単なる分類器として使うのではなく、文章中のどこからどこまでがある種類の表現かを直接書き込ませる点にある。扱う対象も分かりやすい。英語試験の解答には、"In conclusion" や "It is imperative to recognize that" のような、文を整える働きはあるが内容そのものではない表現が混じる。著者らはこれを shell と呼び、主張や根拠の中身を meat と呼ぶ。shell は文章を読みやすくするために必要なこともあるが、定型句で字数や語彙の豊かさを水増しするためにも使われる。自動採点では、この違いを見落とすと、内容が薄い解答を高く評価するおそれがある。
もう一つ興味深いのは、LLM が得意に見える作業にも細かな失敗の型があることを、比較的素直に示している点である。o1 は強い単体モデルだったが、prompt の言い換えを「prompt の再掲」と見なすかどうかなど、文脈依存の判断で人手ラベルとずれた。さらに、o1 のラベルで ModernBERT を訓練すると、ModernBERT は o1 の正解だけでなく、体系的な誤りも学ぶ。この結果は、LLM で合成ラベルを作って小型モデルに蒸留する方法の限界をよく表している。教師データが増えても、元のラベルの判断基準が人間とずれていれば、そのずれは消えない。
問題設定
対象は、Duolingo English Test(DET)のような英語能力試験で書かれる自由記述解答である。解答者は、ある主張に賛成または反対する文章を書いたり、過去の経験を説明したりする。その中には、主張や根拠に当たる内容と、文章を組み立てるための表現が混在する。後者が shell language であり、論文では五つのカテゴリに分けて扱う。たとえば、談話標識や接続表現、一般的で曖昧な文、prompt の再掲、権威への訴え、立場表明である。
このタスクは、文書全体を一つのラベルに分類する問題ではない。文章中の連続した token 範囲を見つけ、その範囲にカテゴリを付ける span labeling である。境界を一語間違えるだけでも評価に影響する。さらに、"I think" が単なる個人的嗜好なのか、議論上の立場表明なのかは文脈に左右される。prompt を十分に言い換えた文を、新しい主張と見るか、prompt の再掲と見るかも難しい。したがって、この問題では大規模な教師データを集めにくく、ルールだけで処理することも難しい。
提案手法
著者らはまず、人手で shell language の rubric を作る。最初の草案には ChatGPT も使われたが、その後は著者らが少数の解答を共同で確認し、さらに独立アノテーションと調停を経て、最終的な基準に整えた。最終データは 142 件の解答で、40 件を few-shot 用、102 件を評価用に分ける。LLM には rubric 全体と 5 件または 10 件の例を与え、入力文をそのまま再出力しつつ、shell span を <shell category="B">... </shell> のような XML 風タグで囲ませる。
比較した LLM は DeepSeek-V3、GPT-4o、DeepSeek-R1、o1、o3-mini である。出力は XML として機械的に検証され、タグの閉じ忘れ、入れ子、余計なタグ、原文の欠落などが失敗として扱われる。この設計は単純だが、実務上は重要である。LLM が自然文としてもっともらしい説明を返しても、原文を書き換えたり span 境界を壊したりすれば、アノテーションとしては使えない。著者らはさらに、LLM ラベルを大量に作り、それを BIO 形式へ変換して ModernBERT をファインチューニングする実験も行う。ここでは o1 で 7,100 件をアノテーションし、6,500 件を訓練、600 件を検証に用いている。
結果
XML 風アノテーションの生成成功率では、o3-mini が 0.99、o1 が 0.98 と高く、DeepSeek-R1 は 0.75 にとどまった。DeepSeek-R1 では長い応答が途中で切れる例が多く、タスクそのものとは別の運用上の問題が出ている。人手ラベルに対する token-level F1 では、multiclass shell labeling で o1 が 0.700、o3-mini が 0.638、DeepSeek-R1 が 0.651、DeepSeek-V3 が 0.615、GPT-4o が 0.568 であった。reasoning model の ensemble は 0.733、全モデルの ensemble は 0.727 で、単体モデルより少し高い。二値の shell 判定では、reasoning ensemble と全モデル ensemble がともに 0.831 を得ている。
誤りは、一般的で曖昧な文を表す B と、prompt 再掲を表す C に集中した。これらはカテゴリ自体が文脈依存であり、人間同士でも判断が揺れやすい。費用面では、102 件の評価セットを処理するだけでも、o1 は 20.28 ドル、o3-mini は 2.54 ドル、GPT-4o は 1.06 ドルであった。全実験では 3,665.45 ドルを費やしており、rubric の反復や検証にも相応の費用がかかる。
ModernBERT への蒸留は、期待ほど良くなかった。LLM ラベルで訓練した ModernBERT は、o1 ラベルの検証セットでは multiclass F1 0.758 まで出るが、人手ラベルのテストセットでは最大でも 0.559 程度にとどまる。これは、小型モデルが o1 の出力形式や判断傾向を学んだ一方で、人間の判断に近づいたわけではないことを示す。LLM を安価なモデルへ置き換えるには、単に大量の合成ラベルを増やすだけでなく、rubric の曖昧さを減らし、人手ラベルとのずれを明示的に扱う必要がある。
具体例
たとえば、prompt が「人は指示を聞くより、実演を見た方がよく学ぶと思うか」と尋ねているとする。ある解答者が、"This is a very interesting topic for a debate. I would advocate the argument that being shown what to do is the better option because people are visual learners. For this reason, it is therefore clear that being shown what to do is better." と書いた場合、手法はまず原文を保ったまま、内容の薄い導入句や結論句を shell として囲む。"This is a very interesting topic for a debate" は一般的で曖昧な文として B に近く、"I would advocate the argument that" は立場表明の E、"For this reason" は接続表現の A と見なされる。一方、"people are visual learners" は解答者の主張の中身なので meat として残る。
期待される出力は、採点そのものではなく、文章のどの部分が構造を支える表現で、どの部分が実質的な内容かを分けたアノテーションである。これができれば、自動採点器は単に長い文章や難しそうな定型句を高く評価するのではなく、実際の根拠や説明がどれだけ展開されているかを別に測れる。間違えやすいのは、prompt の語句を使った文である。解答者が prompt をほぼ写しているだけなら shell だが、自分の主張として十分に言い換えているなら meat と扱うべき場合がある。この境界は、LLM だけでなく人手アノテーションにとっても難しい。