Towards Conditioning Clinical Text Generation for User Control

生成日: 2026-05-24 02:20

# Towards Conditioning Clinical Text Generation for User Control
- 臨床文書生成を、退院時の経過要約と退院指示の作成という実務に近い課題で扱う。
- 著者らは、文体の指針と話題単位の分割を大規模言語モデルで付与し、利用者が内容と書き方を制御しやすい形でモデルを訓練する。
- BioNLP ACL 2024 の Discharge Me! 課題で、従来の首位を上回り、拡張データを用いた最良構成では全体スコア 0.445 に達した。

## 論文の面白いところ

この論文の中心は、臨床文書生成を単なる一括要約として扱わない点にある。退院サマリのような文書では、何を書くかだけでなく、どの順序で、どの程度専門的に、どの書式で書くかが重要になる。従来のデータセットは、多くの場合、一つの入力に一つの正解文書を対応させるだけであり、同じ内容を別の妥当な書き方で表す余地を明示しない。著者らはこの不足を、著者指針と話題分割という二つの注釈で補う。これらの注釈は人手で大量に作るのではなく、Llama 3.1 70B Instruct を用いて既存の目標文書から生成する。つまり、教師データを増やすというより、教師データに「どう書くべきか」と「どの単位で書くべきか」を添える研究である。臨床の現場では、医師が生成結果を確認する負担が問題になるため、途中で見出しや質問を直せる設計は実用上の意味を持つ。

## 問題設定

対象は BioNLP ACL 2024 の Discharge Me! shared task である。この課題では、MIMIC-IV に基づく退院サマリから Brief Hospital Course（BHC）と Discharge Instructions（DI）の節を生成する。入力には、該当部分を除いた退院サマリ、放射線レポート、診断コードなどの臨床文脈が含まれる。BHC は入院中の経過を医療者向けにまとめる節であり、DI は退院後の注意や服薬などを患者向けに伝える節である。どちらも、事実の欠落や幻覚が患者安全に関わりうる。さらに、病院や診療科ごとに文体や構成の慣行が異なるため、参照文と少し違う書き方が必ずしも誤りとはいえない。このため著者らは、正解文だけを学習する設定では、内容と文体の区別が曖昧になると見る。

## 提案手法

提案は、既存の目標文書に三種類の補助情報を付け、Llama 3 8B Instruct を instruction tuning する方法である。第一に、style guidelines と呼ぶ文体記述を生成し、文書の調子、構成、用語の使い方、想定読者などを説明させる。第二に、writing instructions と呼ぶより具体的な執筆指示を生成し、非専門家が同じ種類の文書を書けるように目的、構造、書式を指示する形にする。第三に、目標文書を細かい話題単位に分割し、それぞれに短い見出し、対応する質問、本文の span を XML 形式で付ける。この質問は、Question Under Discussion（QUD）の考え方に基づき、その段落が答えている暗黙の問いを表す。訓練時には、通常の臨床文脈に加えて、これらの指針や話題情報を入力に含める。話題単位の XML タグは、生成を途中で止め、利用者が見出しや質問を直し、続きを生成するための制御列として使える。

## 結果

まず、拡張なしの BASE でも全体スコア 0.363 を得て、Discharge Me! の従来首位である WisPerMed の 0.332 を上回った。この BASE は Llama 3 8B Instruct を単一モデルとして訓練したもので、巨大なアンサンブルや複数モデルを用いない。著者らの比較では、訓練可能パラメータ数は 169M で、従来上位システムより少なく、計算量も低い。データ拡張を加えると性能はさらに上がり、style guidelines で 0.399、writing instructions で 0.420、話題制御で 0.403 となった。最良の構成は writing instructions と topic guidance を併用したもので、全体スコアは 0.445 である。DI 生成では同構成が 0.500 を記録し、ROUGE-1、BERTScore、MEDCON などでも高い値を示した。人手評価では、LLM が生成した見出しは 91.9% で対応する本文に合い、質問は 88.4% で本文により適切に答えられると判定された。ただし、著者らも述べるように、実際に臨床家が対話的に使った場合の負担軽減はまだ十分に検証されていない。

## 具体例

たとえば、入力として、70 代の患者が息切れと下肢浮腫で入院し、心不全の治療を受け、入院中に利尿薬が調整され、退院時には腎機能の再検査と循環器外来の受診が必要である、という退院サマリと放射線レポートが与えられるとする。通常の一括生成では、モデルはこれらの情報から BHC や DI をまとめて書く。提案手法では、まず DI について「退院後の服薬」「受診予定」「注意すべき症状」のような話題を見出しとして扱い、それぞれに「患者は退院後どの薬を続けるべきか」「いつ医療機関に連絡すべきか」といった質問を添える。モデルは、その質問に答える短い本文を順に生成する。利用者は、ある見出しが不要であれば削除し、腎機能の再検査を強調したければその話題を追加できる。期待される出力は、患者向けの簡潔な退院指示であり、服薬、検査、再診、警告症状が混ざらずに並ぶ。間違えやすい点は、入院中に一時的に使った薬を退院後も続けるように書いてしまうこと、あるいは放射線レポートの古い所見を現在の診断として扱ってしまうことである。このため、話題ごとに生成と確認を分けることは、長い文書を最後に一括で点検するよりも、誤りの位置を見つけやすくする。

Towards Conditioning Clinical Text Generation for User Control

臨床文書生成を、退院時の経過要約と退院指示の作成という実務に近い課題で扱う。
著者らは、文体の指針と話題単位の分割を大規模言語モデルで付与し、利用者が内容と書き方を制御しやすい形でモデルを訓練する。
BioNLP ACL 2024 の Discharge Me! 課題で、従来の首位を上回り、拡張データを用いた最良構成では全体スコア 0.445 に達した。

論文の面白いところ

この論文の中心は、臨床文書生成を単なる一括要約として扱わない点にある。退院サマリのような文書では、何を書くかだけでなく、どの順序で、どの程度専門的に、どの書式で書くかが重要になる。従来のデータセットは、多くの場合、一つの入力に一つの正解文書を対応させるだけであり、同じ内容を別の妥当な書き方で表す余地を明示しない。著者らはこの不足を、著者指針と話題分割という二つの注釈で補う。これらの注釈は人手で大量に作るのではなく、Llama 3.1 70B Instruct を用いて既存の目標文書から生成する。つまり、教師データを増やすというより、教師データに「どう書くべきか」と「どの単位で書くべきか」を添える研究である。臨床の現場では、医師が生成結果を確認する負担が問題になるため、途中で見出しや質問を直せる設計は実用上の意味を持つ。

問題設定

対象は BioNLP ACL 2024 の Discharge Me! shared task である。この課題では、MIMIC-IV に基づく退院サマリから Brief Hospital Course（BHC）と Discharge Instructions（DI）の節を生成する。入力には、該当部分を除いた退院サマリ、放射線レポート、診断コードなどの臨床文脈が含まれる。BHC は入院中の経過を医療者向けにまとめる節であり、DI は退院後の注意や服薬などを患者向けに伝える節である。どちらも、事実の欠落や幻覚が患者安全に関わりうる。さらに、病院や診療科ごとに文体や構成の慣行が異なるため、参照文と少し違う書き方が必ずしも誤りとはいえない。このため著者らは、正解文だけを学習する設定では、内容と文体の区別が曖昧になると見る。

提案手法

提案は、既存の目標文書に三種類の補助情報を付け、Llama 3 8B Instruct を instruction tuning する方法である。第一に、style guidelines と呼ぶ文体記述を生成し、文書の調子、構成、用語の使い方、想定読者などを説明させる。第二に、writing instructions と呼ぶより具体的な執筆指示を生成し、非専門家が同じ種類の文書を書けるように目的、構造、書式を指示する形にする。第三に、目標文書を細かい話題単位に分割し、それぞれに短い見出し、対応する質問、本文の span を XML 形式で付ける。この質問は、Question Under Discussion（QUD）の考え方に基づき、その段落が答えている暗黙の問いを表す。訓練時には、通常の臨床文脈に加えて、これらの指針や話題情報を入力に含める。話題単位の XML タグは、生成を途中で止め、利用者が見出しや質問を直し、続きを生成するための制御列として使える。

結果

まず、拡張なしの BASE でも全体スコア 0.363 を得て、Discharge Me! の従来首位である WisPerMed の 0.332 を上回った。この BASE は Llama 3 8B Instruct を単一モデルとして訓練したもので、巨大なアンサンブルや複数モデルを用いない。著者らの比較では、訓練可能パラメータ数は 169M で、従来上位システムより少なく、計算量も低い。データ拡張を加えると性能はさらに上がり、style guidelines で 0.399、writing instructions で 0.420、話題制御で 0.403 となった。最良の構成は writing instructions と topic guidance を併用したもので、全体スコアは 0.445 である。DI 生成では同構成が 0.500 を記録し、ROUGE-1、BERTScore、MEDCON などでも高い値を示した。人手評価では、LLM が生成した見出しは 91.9% で対応する本文に合い、質問は 88.4% で本文により適切に答えられると判定された。ただし、著者らも述べるように、実際に臨床家が対話的に使った場合の負担軽減はまだ十分に検証されていない。

具体例

たとえば、入力として、70 代の患者が息切れと下肢浮腫で入院し、心不全の治療を受け、入院中に利尿薬が調整され、退院時には腎機能の再検査と循環器外来の受診が必要である、という退院サマリと放射線レポートが与えられるとする。通常の一括生成では、モデルはこれらの情報から BHC や DI をまとめて書く。提案手法では、まず DI について「退院後の服薬」「受診予定」「注意すべき症状」のような話題を見出しとして扱い、それぞれに「患者は退院後どの薬を続けるべきか」「いつ医療機関に連絡すべきか」といった質問を添える。モデルは、その質問に答える短い本文を順に生成する。利用者は、ある見出しが不要であれば削除し、腎機能の再検査を強調したければその話題を追加できる。期待される出力は、患者向けの簡潔な退院指示であり、服薬、検査、再診、警告症状が混ざらずに並ぶ。間違えやすい点は、入院中に一時的に使った薬を退院後も続けるように書いてしまうこと、あるいは放射線レポートの古い所見を現在の診断として扱ってしまうことである。このため、話題ごとに生成と確認を分けることは、長い文書を最後に一括で点検するよりも、誤りの位置を見つけやすくする。