Untitled

生成日:

Untitled

どんな論文か

論文タイトル: Exploring automatic terminology extraction from historical medical data 著者: Leonardo Zilio, Maria José Bocorny Finatto 会議: Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 2 URL: https://aclanthology.org/2026.propor-2.37/

18世紀ポルトガル語で書かれた医学文献から、専門用語をどれくらい自動抽出できるかを調べた論文です。対象は、1794年にポルトガル語へ翻訳・翻案された船乗り向け医学ハンドブック Aviso a’ Gente do Mar sobre a sua Saude の一章。現代語の正書法に合わないうえ、同じ概念でも表記や言い回しが揺れるので、普通のNLPツールにはなかなか意地悪なデータです。

著者らは、ルール・パターン系の抽出器、汎用LLM、医療寄りLLM、ポルトガル語医療NERモデルを横並びで試しています。狙いは「どの単体モデルが勝つか」だけではなく、人手アノテーションに自動抽出を足すと、歴史医学テキストの用語リストをどれくらい広げられるかを見ることにあります。

面白いのは、評価を一つに絞っていないところです。最初の人手アノテーションを正解としてF値を見るだけでなく、抽出候補を別途人手で精査し、もとのアノテーションから漏れていた妥当な用語も拾っています。古い専門文献では「正解リスト」自体が不完全になりやすいので、この設計はかなり現実的です。

何を調べたか

主な結果

単体モデルでは、Gemma系がhybrid評価のF値で強めでした。MedGemmaのカテゴリ提示プロンプトはhybrid F値0.5284、Gemmaのカテゴリ提示は0.5109、Gemmaのone-shotは0.5096です。一方で、precisionだけを見るとDiSTERが目立ちます。DiSTERのone-shotはhybrid precision 0.7732まで出ていますが、抽出候補は97語と少なく、recallは0.1685にとどまります。

recall重視だと、昔ながらのパターン系がまだ強いです。Sketch Engine単体はhybrid recall 0.6382で単体最高。ただしprecisionは0.3253と低く、候補を多めに出して人が後で見るタイプの挙動です。TBXTools単体は目立つ最高値こそ少ないものの、他モデルとの組み合わせでかなり効いています。

組み合わせると結果がだいぶ変わります。2モデルの組み合わせでは、DiSTER zero-shot + MedGemmaカテゴリ提示がF値0.5654、Gemmaカテゴリ提示 + TBXToolsが0.5762。3モデルでは DiSTER zero-shot + Gemmaカテゴリ提示 + TBXTools がF値0.5951で最良でした。recallだけなら EuroLLMカテゴリ提示 + Sketch Engine + TBXTools と MedGemma few-shot + Sketch Engine + TBXTools がどちらも0.9169まで上がっています。ただし、その場合のprecisionは0.33前後なので、人手確認なしでそのまま用語集にするのは厳しそうです。

ポイント

この論文のいいところは、LLMを雑に「新しいから強い」と扱っていない点です。歴史的なポルトガル語医学文献という、スペルも用語境界も揺れるデータでは、LLM単体で一気に解決とはいきません。むしろSketch EngineやTBXToolsのようなパターン系がrecallを稼ぎ、LLMが別の漏れを拾う、という分担が見えます。

同時に、LLMの怖さも具体的に出ています。Gemma系やEuroLLMは、歴史的綴りを現代風に直してしまうことがありました。たとえば “vomitos” を “vômitos” にするような変更です。現代語処理なら親切に見えるかもしれませんが、歴史言語資料では表記そのものが研究対象なので、これはかなり困ります。

限界もはっきりしています。テストは一章だけで、アノテーションもガイドラインなしの一名中心です。だから、この数値をそのまま一般化するより、「歴史専門テキストでATEを回すなら、単体モデルのスコアより、人手アノテーションをどう補完するかを設計したほうがいい」という読み方が合っています。実務的には、まず高recallな組み合わせで候補を広く出し、専門家が文脈を見て絞る、という半自動ワークフローが現実的そうです。

一言でいうと、LLMだけに任せるより、古典的な抽出器と組み合わせて「漏れを減らす」ほうが、歴史医学テキストの用語抽出には効きそうです。