When the Dictionary Strikes Back: A Case Study on Slovak Migration Location Term Extraction and NER via Rule-Based vs. LLM Methods

生成日: 2026-05-24 02:20

# When the Dictionary Strikes Back: A Case Study on Slovak Migration Location Term Extraction and NER via Rule-Based vs. LLM Methods
- スロバキア語の報道文から、移民の出発地と到着地を抽出する課題を扱う。
- 手作業で注釈したデータセットを作り、辞書規則、SlovakBERT、GPT-4o を比較する。
- 地理的関連性の分類では SlovakBERT が最良で、出発地・到着地の抽出では NLP4SK に基づく規則手法が GPT-4o を上回った。

## 論文の面白いところ

この論文の要点は、低資源言語の小さな専門課題では、よく整えた辞書規則が大規模言語モデル（Large Language Model; LLM）に勝つ場合がある、という実証にある。対象はスロバキア語の移民報道であり、単に地名を見つけるのではなく、その地名が移民の出発地なのか、到着地なのか、それとも通過地や背景説明にすぎないのかを分ける必要がある。近年の自然言語処理では、汎用モデルの性能が強く語られがちであるが、本研究は形態変化、前置詞、地名辞書といった古典的な言語資源の効用を示している。とくにスロバキア語では、地名が格変化し、国名が形容詞として現れるため、英語向けの単純な固有表現抽出では扱いにくい。著者らはこの事情を、NLP4SK というスロバキア語処理ツールの辞書と規則に落とし込んだ。GPT-4o は少数例を与えると改善するが、評価上の出力の揺れや、到着地を補ってしまう傾向が残る。したがって本論文は、LLM と規則手法の優劣を一般論で裁くのではなく、課題の粒度と言語の性質に即して測った点に価値がある。

## 問題設定

課題は二つに分かれる。第一は、ある文がスロバキアに関係する移民の記述かどうかを判定する地理的関連性分類である。第二は、移民に関する文から、移動の出発地（source）と到着地（destination）を抽出する局所性抽出である。対象データは 2022 年と 2024 年のスロバキア語メディア記事から作られ、ウクライナ、シリア、ガザ、アフリカから欧州への移民などを含む。分類用データは 2,736 例、抽出用データは 1,652 例であり、三人の著者が注釈し、注釈者の合意が得られない文は除外した。注釈では、明示されていない出発地や到着地を推測で補わない方針を取る。これは重要であり、たとえば「シリアから逃れる人々」とだけ書かれている場合、出発地はシリアとできても、到着地は不明のままにする。地名の同名異義、国名と地域名の粒度差、「わが国」のような照応表現、組織名から国を連想させる表現も、課題を難しくしている。

## 提案手法

著者らは、分類と抽出に対して複数の方法を比較している。地理的関連性分類では、多数派クラスを常に返すベースライン、NLP4SK による辞書規則、二値分類器として微調整した SlovakBERT を用いる。SlovakBERT は 5 エポック学習され、AdamW、学習率 2e-5 で調整された。抽出課題では、NLP4SK に基づく規則手法と GPT-4o を比較する。NLP4SK は地名辞書、見出し語化、概念辞書を備え、地名が名詞以外や非標準の格で現れても扱える。規則手法は、たとえば「z」（from）に続く地名を出発地、「do」（to）に続く地名を到着地として扱い、国籍形容詞から出発地を復元する。GPT-4o には、移民ベクトルを FROM と TO の組として出力する英語のプロンプトを与え、ゼロショットと 5 例の少数例設定を試す。評価は、正解注釈との文字列一致、部分一致、トークンベースの類似度を用いて行われた。

## 結果

地理的関連性分類では、SlovakBERT が macro-F1 97.75、正解率 98.45 で最良となった。NLP4SK の辞書分類も macro-F1 96.15、正解率 96.90 と高く、多数派ベースラインの macro-F1 41.95 を大きく上回った。抽出課題では、NLP4SK が出発地 91.82、到着地 84.36、総合 88.09 の macro-F1 を得た。GPT-4o はゼロショットで総合 79.62、少数例設定で 84.42 まで伸びたが、NLP4SK には届かなかった。出発地の抽出は、どの手法でも到着地より容易であった。著者らは、報道文では出身国が明示されやすい一方、到着地は省略されたり、文脈から暗示されたりするためだと見る。付録の誤り分析では、LLM が到着地を本文にない形で作ってしまう例が多く、スロバキア語の前置詞や場所の粒度を誤る傾向も示されている。ただし、GPT-4o の出力は意味的には合っていても文字列評価で損をする場合があり、この点は結果の解釈に注意を要する。

## 具体例

たとえば、スロバキア語の記事に「シリアの家族がブラチスラヴァへ向かい、途中でブダペストに滞在した」といった文があるとする。この課題では、手法はまず「シリア」「ブラチスラヴァ」「ブダペスト」を地名として認識する。次に、移民の出発点がどこか、到着点がどこかを、前置詞、格、周囲の語から判断する。この例では、シリアは「シリアの家族」という形容詞的な表現から出発地として扱われる。ブラチスラヴァは「へ向かい」に当たる表現により、到着地として抽出される。ブダペストは途中滞在の場所なので、移民ベクトルの端点ではなく、出力から除かれる。期待される出力は、FROM: Sýria、TO: Bratislava のような組である。間違えやすい点は、通過地のブダペストを到着地として採ってしまうこと、または「シリアの」を単なる形容に見て出発地を落とすことである。LLM は文脈からもっともらしい到着地を補うことがあるため、本文に明示または強く示された情報だけを使うという注釈方針とのずれが生じやすい。

When the Dictionary Strikes Back: A Case Study on Slovak Migration Location Term Extraction and NER via Rule-Based vs. LLM Methods

スロバキア語の報道文から、移民の出発地と到着地を抽出する課題を扱う。
手作業で注釈したデータセットを作り、辞書規則、SlovakBERT、GPT-4o を比較する。
地理的関連性の分類では SlovakBERT が最良で、出発地・到着地の抽出では NLP4SK に基づく規則手法が GPT-4o を上回った。

論文の面白いところ

この論文の要点は、低資源言語の小さな専門課題では、よく整えた辞書規則が大規模言語モデル（Large Language Model; LLM）に勝つ場合がある、という実証にある。対象はスロバキア語の移民報道であり、単に地名を見つけるのではなく、その地名が移民の出発地なのか、到着地なのか、それとも通過地や背景説明にすぎないのかを分ける必要がある。近年の自然言語処理では、汎用モデルの性能が強く語られがちであるが、本研究は形態変化、前置詞、地名辞書といった古典的な言語資源の効用を示している。とくにスロバキア語では、地名が格変化し、国名が形容詞として現れるため、英語向けの単純な固有表現抽出では扱いにくい。著者らはこの事情を、NLP4SK というスロバキア語処理ツールの辞書と規則に落とし込んだ。GPT-4o は少数例を与えると改善するが、評価上の出力の揺れや、到着地を補ってしまう傾向が残る。したがって本論文は、LLM と規則手法の優劣を一般論で裁くのではなく、課題の粒度と言語の性質に即して測った点に価値がある。

問題設定

課題は二つに分かれる。第一は、ある文がスロバキアに関係する移民の記述かどうかを判定する地理的関連性分類である。第二は、移民に関する文から、移動の出発地（source）と到着地（destination）を抽出する局所性抽出である。対象データは 2022 年と 2024 年のスロバキア語メディア記事から作られ、ウクライナ、シリア、ガザ、アフリカから欧州への移民などを含む。分類用データは 2,736 例、抽出用データは 1,652 例であり、三人の著者が注釈し、注釈者の合意が得られない文は除外した。注釈では、明示されていない出発地や到着地を推測で補わない方針を取る。これは重要であり、たとえば「シリアから逃れる人々」とだけ書かれている場合、出発地はシリアとできても、到着地は不明のままにする。地名の同名異義、国名と地域名の粒度差、「わが国」のような照応表現、組織名から国を連想させる表現も、課題を難しくしている。

提案手法

著者らは、分類と抽出に対して複数の方法を比較している。地理的関連性分類では、多数派クラスを常に返すベースライン、NLP4SK による辞書規則、二値分類器として微調整した SlovakBERT を用いる。SlovakBERT は 5 エポック学習され、AdamW、学習率 2e-5 で調整された。抽出課題では、NLP4SK に基づく規則手法と GPT-4o を比較する。NLP4SK は地名辞書、見出し語化、概念辞書を備え、地名が名詞以外や非標準の格で現れても扱える。規則手法は、たとえば「z」（from）に続く地名を出発地、「do」（to）に続く地名を到着地として扱い、国籍形容詞から出発地を復元する。GPT-4o には、移民ベクトルを FROM と TO の組として出力する英語のプロンプトを与え、ゼロショットと 5 例の少数例設定を試す。評価は、正解注釈との文字列一致、部分一致、トークンベースの類似度を用いて行われた。

結果

地理的関連性分類では、SlovakBERT が macro-F1 97.75、正解率 98.45 で最良となった。NLP4SK の辞書分類も macro-F1 96.15、正解率 96.90 と高く、多数派ベースラインの macro-F1 41.95 を大きく上回った。抽出課題では、NLP4SK が出発地 91.82、到着地 84.36、総合 88.09 の macro-F1 を得た。GPT-4o はゼロショットで総合 79.62、少数例設定で 84.42 まで伸びたが、NLP4SK には届かなかった。出発地の抽出は、どの手法でも到着地より容易であった。著者らは、報道文では出身国が明示されやすい一方、到着地は省略されたり、文脈から暗示されたりするためだと見る。付録の誤り分析では、LLM が到着地を本文にない形で作ってしまう例が多く、スロバキア語の前置詞や場所の粒度を誤る傾向も示されている。ただし、GPT-4o の出力は意味的には合っていても文字列評価で損をする場合があり、この点は結果の解釈に注意を要する。

具体例

たとえば、スロバキア語の記事に「シリアの家族がブラチスラヴァへ向かい、途中でブダペストに滞在した」といった文があるとする。この課題では、手法はまず「シリア」「ブラチスラヴァ」「ブダペスト」を地名として認識する。次に、移民の出発点がどこか、到着点がどこかを、前置詞、格、周囲の語から判断する。この例では、シリアは「シリアの家族」という形容詞的な表現から出発地として扱われる。ブラチスラヴァは「へ向かい」に当たる表現により、到着地として抽出される。ブダペストは途中滞在の場所なので、移民ベクトルの端点ではなく、出力から除かれる。期待される出力は、FROM: Sýria、TO: Bratislava のような組である。間違えやすい点は、通過地のブダペストを到着地として採ってしまうこと、または「シリアの」を単なる形容に見て出発地を落とすことである。LLM は文脈からもっともらしい到着地を補うことがあるため、本文に明示または強く示された情報だけを使うという注釈方針とのずれが生じやすい。