ProMedTS: A Self-Supervised, Prompt-Guided Multimodal Approach for Integrating Medical Text and Time Series
- 電子カルテには、退院サマリのような文章と、検査値の時系列のような数値列が同時に含まれる。本論文は、この二つを LLM に扱わせるための ProMedTS を提案する。
- ProMedTS は検査値の異常を短い説明文に変え、それを手がかりに時系列プロンプト埋め込みを学習する。LLM 本体の構造を変えず、prefix soft prompt として検査値の情報を入れる点が特徴である。
- MIMIC-III と MIMIC-IV の疾患診断タスクでは、Flan-T5-small を骨格にした構成で主要な単一モダリティ・マルチモーダル手法を上回った。異常説明と時系列プロンプトの両方が有効であることも ablation で示している。
Abstract(日本語訳)
大規模言語モデル(LLM)は vision-language タスクで顕著な性能を示してきたが、医療分野での応用、とくに構造化された時系列データと非構造的な臨床ノートの統合については、なお十分に検討されていない。臨床現場では、検査結果のような動的な時系列データが重要な時間的パターンを捉える一方、臨床ノートは豊かな意味的文脈を与える。連続信号と離散的なテキストには本質的な違いがあるため、これらのモダリティを統合することは難しい。この隔たりを埋めるため、本論文では、prompt-guided learning を用いて異種のデータ型を統合する、新しい自己教師ありマルチモーダルフレームワーク ProMedTS を導入する。提案手法は軽量な異常検知を利用してプロンプトとして働く異常キャプションを生成し、生の時系列データを情報量のあるプロンプト埋め込みへ符号化する過程を導く。これらのプロンプト埋め込みは共有潜在空間でテキスト表現とアラインされ、意味的洞察とともに細粒度の時間的ニュアンスを保持する。さらに、本フレームワークは、モダリティ内およびモダリティ間のアラインメントを高めるために設計された自己教師あり目的を組み込む。実世界のデータセットを用いた疾患診断タスクで ProMedTS を評価し、その結果、提案手法が state-of-the-art の手法を一貫して上回ることを示した。
論文の面白いところ
医療 LLM の議論では、臨床ノートをどれだけよく読めるかに注目が集まりやすい。しかし電子カルテの重要な部分は文章だけではない。血圧、酸素飽和度、pH、血糖値などは時間に沿って変化し、単発の数値よりも経過に意味がある。本論文の面白さは、この数値時系列を無理に文章へ完全変換するのではなく、異常の説明文と soft prompt の二段構えで LLM に渡す点にある。異常説明は、人間にも読める粗い橋渡しであり、時系列プロンプト埋め込みは細かな変動を保つ機械向けの表現である。この分担により、文章と数値列の間にある表現形式の差を小さくしている。LLM 本体を大きく作り替えないため、既存の Flan-T5、OPT、QWEN-2.5 などに接続しやすいことも実用上の利点である。一方で、診断根拠の説明性は今後の課題として残る。
問題設定
本論文が扱うのは、電子カルテから複数の疾患フェノタイプを診断する問題である。入力には、退院サマリなどの medical notes と、検査値やバイタルサインの時系列データが含まれる。臨床ノートはトークン列として LLM が扱いやすいが、時系列データは連続値であり、欠損、サンプリング間隔の不規則性、頻度の違いを含む。通常のテキスト分類器ならノートだけを読み、時系列モデルなら検査値だけを読むことになる。だが、実際の診断では、文章に書かれた経過と、検査値の異常の出方を合わせて見る必要がある。既存のマルチモーダル手法は画像とテキストのアラインメントでは成果を上げているが、検査値時系列と臨床テキストの統合にはそのまま適用しにくい。ProMedTS は、この差を自己教師あり学習で埋め、LLM が両方の情報を同時に使えるようにすることを目的とする。
提案手法
ProMedTS は、検査値時系列、臨床ノート、検査値異常の説明文を同じ診断入力として扱う。まず、軽量な異常検知により、各検査項目が正常範囲より高いか低いか、それが何回起きたかを短いテキストにする。たとえば「fraction inspired oxygen is higher than normal forty-six times」のような説明が作られる。次に、PatchTST によって数値時系列を符号化し、Clinical-BERT 由来の学習可能な query embedding と cross-attention させて、time series prompt embedding を得る。臨床ノートと異常説明文は Clinical-BERT で別々に符号化され、平均 pooling により統合されたテキスト表現になる。学習では三つの損失を使う。同じ患者に属するテキスト表現と時系列表現を近づける contrastive loss、検査値と異常説明の対応を判定する matching loss、時系列プロンプト埋め込みから異常説明を再構成する generation loss である。下流の疾患診断では、学習した時系列プロンプト埋め込みを LLM の入力次元に合わせ、臨床ノートの前に prefix soft prompt として連結する。これにより、LLM のアーキテクチャを変更せずに構造化データを利用する。
結果
評価には MIMIC-III と MIMIC-IV が使われた。MIMIC-III では約 27,000 人、MIMIC-IV では約 29,000 件の電子カルテを用い、対象は MIMIC-III benchmark で定義された 25 の疾患フェノタイプである。比較対象には GRU、PatchTST、TimeLLM、CAML、DIPOLE、Flan-T5、OPT、QWEN-2.5、PromptEHR、LLaMA-1-7B、LDAM、FROZEN、EHR-KnowGen が含まれる。ProMedTS は、Flan-T5-small を骨格にした場合、MIMIC-III で micro F1 63.67、macro F1 60.42 を得た。MIMIC-IV では micro F1 69.69、macro F1 66.21 であった。表中の比較では、同じくノートと検査値を使う LLaMA-1-7B や EHR-KnowGen より高い F1 を示している。著者らは、複数の backbone LLM で平均約 3% の F1 改善があったと報告している。ablation では、検査値を抜いた場合、異常説明を抜いた場合のいずれも F1 が下がった。損失関数の ablation では、異常説明を再構成する generation loss を外したときの低下が比較的大きく、時系列プロンプトに言語的な手がかりを持たせることの重要性が示される。効率面では、LLaMA より少ないパラメータと短い学習時間で競争力のある結果を得たとされる。
具体例
たとえば、集中治療室に入院した患者について、退院サマリには「肝硬変、腹水、低酸素性呼吸不全、食道静脈瘤からの出血、尿路感染」などの経過が書かれているとする。同時に、検査値やバイタルサインには、吸入酸素濃度が何度も高値になり、呼吸数が数回高く、血糖値にも異常が見られるような時系列がある。通常の LLM に数値の行列をそのまま渡しても、どの変化が診断に関係するかを読み取りにくい。ProMedTS はまず、その時系列から「吸入酸素濃度が通常より高い状態が 46 回ある」「呼吸数が通常より高い状態が 4 回ある」のような異常説明を作る。さらに、生の時系列を PatchTST と cross-attention で time series prompt embedding に変換し、この soft prompt を臨床ノートの前に置く。モデルは、文章に書かれた出血や感染の経過と、数値に表れる呼吸・代謝の異常を合わせて、急性腎不全、電解質異常、敗血症、ショック、肝疾患などの候補を出す。間違えやすいのは、単に「高い値が多い」ことを重く見すぎる場合である。臨床ノートに記された処置や既往と照合しなければ、一時的な異常と疾患フェノタイプを取り違える可能性がある。