LLM Dependency Parsing with In-Context Rules
- 大規模言語モデル(LLM)に記号的な規則を与えると、低資源言語の依存構造解析でゼロショット性能は改善する。
- しかし、少数のラベル付き例をプロンプトに入れると、その改善幅は小さくなり、5-shot ではほぼ消える。
- 最良の LLM 設定でも、UDPipe や多言語 BERT 系の既存解析器を全般には上回らない。
論文の面白いところ
この論文は、LLM に文法規則を読ませれば低資源言語の構文解析がよくなるのかを、かなり直接に調べている。扱うのは依存構造解析で、各語がどの語に係るか、またその関係が主語・目的語・修飾語などのどれに当たるかを予測する課題である。発想は素朴で、まず LLM に少数の解析済み例を見せて規則を書かせ、その規則を別の推論時プロンプトに入れる。人間が作った Universal Dependencies(UD)の注釈ガイドラインを入れる条件も比べている。結果は控えめだが重要で、規則はゼロショットでは効くが、実例を数個見せるだけで優位は薄れる。つまり、LLM は規則という形で例をある程度圧縮できるが、それが例そのものを置き換えるほど強いとは限らない。論文の価値は、LLM に文法知識を足す試みを過度に持ち上げず、どこで効き、どこで効かないかを切り分けた点にある。
問題設定
依存構造解析は、文を語のあいだの有向辺として表す古典的な自然言語処理課題である。英語や中国語のように注釈データが多い言語では、ニューラル解析器を訓練しやすい。一方で、Universal Dependencies には 150 を超える言語が含まれるが、多くの言語では注釈済みトークンが千語未満にとどまる。低資源言語では、大量の教師データを前提とする通常の解析器が使いにくい。多言語モデルによる転移も候補になるが、語順や形態の違いが大きい言語では性能が安定しない。LLM は多言語の事前学習知識を持ち、少数例から課題形式を学ぶこともできるため、この条件で有用かもしれない。本論文は、その LLM に対して、ラベル一覧、LLM が書いた規則、訓練データから抜き出した語の文脈、人間用ガイドラインを与え、低資源言語の解析性能がどう変わるかを調べる。
提案手法
著者らは、Bambara、Bhojpuri、Cantonese、Erzya、Kiche、Komi Zyrian、Nigerian Pidgin、Yoruba の 8 言語を Universal Dependencies から選び、GPT-4o を中心に評価した。基本プロンプトでは、文を語ごとに並べ、各語について係り先の語番号と依存関係ラベルを CoNLL-U に近い簡略形式で出力させる。LABELS 条件では、訓練データに現れる許可ラベルの一覧をプロンプトに入れる。RULE WRITING 条件では、LLM に 5 個の解析済み例を見せ、品詞に近い語カテゴリと「Head -> Dependent (relation type)」形式の規則を書かせる。その規則を、実際に対象文を解析する別プロンプトで用いる。WORD CONTEXTS 条件では、LLM に規則を書かせず、訓練データから「ある語が、どの係り先とどの関係で現れたか」を直接集める。GUIDELINES 条件では、UD の言語別注釈ガイドラインを Markdown 化して与える。これらをゼロショット、3-shot、5-shot の各条件で比較し、例を増やす効果と規則を足す効果を分けて見る設計になっている。
結果
開発データでは、記号的情報を加える条件はゼロショットで UAS と LAS を改善した。UAS は係り先が合っている割合、LAS は係り先と関係ラベルの両方が合っている割合である。RULE WRITING はゼロショットで大きく効き、3-shot でも小さな改善を示したが、5-shot では利点がほぼなくなった。WORD CONTEXTS は LLM に規則を書かせる追加呼び出しを必要とせず、LAS ではもっともよい設定になった。著者らは、規則が本当に抽象的な文法知識を与えているというより、語が過去にどの関係で現れたかという情報が効いている可能性を述べている。GUIDELINES は期待ほど強くなく、ゼロショットと 3-shot で小さな改善にとどまり、RULE WRITING や WORD CONTEXTS には及ばなかった。テストデータでは、GPT-4o、Gemini 2.0 Flash、Command R+、Llama 3.1 を最良設定で比べ、平均的には Gemini がもっともよかった。ただし、LLM 系の方法は多くの言語で UDPipe や mBERT、XLM-RoBERTa を用いた既存手法に届かなかった。追加実験では、関係ラベル一覧を入れることは安価で小さな改善をもたらした一方、Chain-of-Thought prompting は 5-shot 条件で性能を悪化させた。
具体例
たとえば、Bambara の短い文として「n na kònò to n bolo!」のような入力が与えられるとする。システムには、各語が 1 行ずつ番号付きで渡され、出力では各語について「どの番号の語に係るか」と「case、nsubj、root などの関係ラベル」を返す必要がある。RULE WRITING 条件では、事前に見た解析済み例から、代名詞には格を表す小辞が付く、名詞にも同じ小辞が付く、というような規則が書かれる。対象文を解析するとき、LLM はその規則を参照して、小辞「na」がどの語に係るかを決める。期待される出力では、「na」は文中の適切な代名詞または名詞に case 関係で結び付く。ところが、規則が「PRONOUN -> PARTICLE (case)」と「NOUN -> PARTICLE (case)」のように語順を含まない形で書かれていると、複数の解析が同時に許される。この場合、LLM は正しい候補ではなく、近くの別の名詞を係り先に選ぶことがある。論文はこの失敗を、規則を与えるだけでは曖昧性を十分に解けない例として扱っている。