Untitled
どんな論文か
論文タイトル: Exploring automatic terminology extraction from historical medical data 著者: Leonardo Zilio, Maria José Bocorny Finatto 会議: Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 2 URL: https://aclanthology.org/2026.propor-2.37/
18世紀ポルトガル語で書かれた医学文献から、専門用語をどれくらい自動抽出できるかを調べた論文です。対象は、1794年にポルトガル語へ翻訳・翻案された船乗り向け医学ハンドブック Aviso a’ Gente do Mar sobre a sua Saude の一章。現代語の正書法に合わないうえ、同じ概念でも表記や言い回しが揺れるので、普通のNLPツールにはなかなか意地悪なデータです。
著者らは、ルール・パターン系の抽出器、汎用LLM、医療寄りLLM、ポルトガル語医療NERモデルを横並びで試しています。狙いは「どの単体モデルが勝つか」だけではなく、人手アノテーションに自動抽出を足すと、歴史医学テキストの用語リストをどれくらい広げられるかを見ることにあります。
面白いのは、評価を一つに絞っていないところです。最初の人手アノテーションを正解としてF値を見るだけでなく、抽出候補を別途人手で精査し、もとのアノテーションから漏れていた妥当な用語も拾っています。古い専門文献では「正解リスト」自体が不完全になりやすいので、この設計はかなり現実的です。
何を調べたか
- データは Aviso a’ Gente do Mar sobre a sua Saude の7章からなるコーパスのうち、ポルトガル語部分。訓練用18,482トークン、テスト用2,774トークン、合計21,256トークン。
- テスト対象は第2部第15章。専門知識を持つ言語学者が、病気、診断、症状、治療、薬、成分、身体部位、行為者、人口に関する情報、一般医学用語などをアノテーションした。
- 比較したツールは7種類。Sketch Engine、TBXTools、DiSTER-Llama-3-8B-Instruct、Gemma-3-4B-It、MedGemma-4B-It、EuroLLM-9B-Instruct、MediAlbertina。
- LLM系4モデルには、zero-shot、カテゴリ提示、one-shot、few-shotの4種類のプロンプトを試した。各プロンプトは英語で書かれ、テストデータの段落単位で投入された。
- 評価は3種類。抽出候補3,208件を人手で見るprecision-only評価、もとのテストアノテーション193語に基づくF値評価、そこに人手で妥当と判断された追加用語252語を足したhybrid評価。
- 指標はprecision、recall、F値。precision-only評価では、完全一致に近いstrict precisionと、部分的に妥当な候補も認めるlenient precisionを分けている。
主な結果
単体モデルでは、Gemma系がhybrid評価のF値で強めでした。MedGemmaのカテゴリ提示プロンプトはhybrid F値0.5284、Gemmaのカテゴリ提示は0.5109、Gemmaのone-shotは0.5096です。一方で、precisionだけを見るとDiSTERが目立ちます。DiSTERのone-shotはhybrid precision 0.7732まで出ていますが、抽出候補は97語と少なく、recallは0.1685にとどまります。
recall重視だと、昔ながらのパターン系がまだ強いです。Sketch Engine単体はhybrid recall 0.6382で単体最高。ただしprecisionは0.3253と低く、候補を多めに出して人が後で見るタイプの挙動です。TBXTools単体は目立つ最高値こそ少ないものの、他モデルとの組み合わせでかなり効いています。
組み合わせると結果がだいぶ変わります。2モデルの組み合わせでは、DiSTER zero-shot + MedGemmaカテゴリ提示がF値0.5654、Gemmaカテゴリ提示 + TBXToolsが0.5762。3モデルでは DiSTER zero-shot + Gemmaカテゴリ提示 + TBXTools がF値0.5951で最良でした。recallだけなら EuroLLMカテゴリ提示 + Sketch Engine + TBXTools と MedGemma few-shot + Sketch Engine + TBXTools がどちらも0.9169まで上がっています。ただし、その場合のprecisionは0.33前後なので、人手確認なしでそのまま用語集にするのは厳しそうです。
ポイント
この論文のいいところは、LLMを雑に「新しいから強い」と扱っていない点です。歴史的なポルトガル語医学文献という、スペルも用語境界も揺れるデータでは、LLM単体で一気に解決とはいきません。むしろSketch EngineやTBXToolsのようなパターン系がrecallを稼ぎ、LLMが別の漏れを拾う、という分担が見えます。
同時に、LLMの怖さも具体的に出ています。Gemma系やEuroLLMは、歴史的綴りを現代風に直してしまうことがありました。たとえば “vomitos” を “vômitos” にするような変更です。現代語処理なら親切に見えるかもしれませんが、歴史言語資料では表記そのものが研究対象なので、これはかなり困ります。
限界もはっきりしています。テストは一章だけで、アノテーションもガイドラインなしの一名中心です。だから、この数値をそのまま一般化するより、「歴史専門テキストでATEを回すなら、単体モデルのスコアより、人手アノテーションをどう補完するかを設計したほうがいい」という読み方が合っています。実務的には、まず高recallな組み合わせで候補を広く出し、専門家が文脈を見て絞る、という半自動ワークフローが現実的そうです。
一言でいうと、LLMだけに任せるより、古典的な抽出器と組み合わせて「漏れを減らす」ほうが、歴史医学テキストの用語抽出には効きそうです。