SECQUE: A Benchmark for Evaluating Real-World Financial Analysis Capabilities

生成日:

SECQUE: A Benchmark for Evaluating Real-World Financial Analysis Capabilities

Abstract(日本語訳)

本論文では、金融分析タスクにおける大規模言語モデル(LLM)を評価するための包括的なベンチマークである SECQUE を導入する。SECQUE は、SEC 提出書類の分析を対象とする専門家作成の 565 件の質問からなり、比較分析、比率計算、リスク評価、金融上の洞察生成という 4 つの主要カテゴリを扱う。モデルの性能を評価するために、複数の LLM ベースの judge を利用する評価機構 SECQUE-Judge を開発し、これは人間による評価と強い一致を示した。さらに、本ベンチマーク上での各種モデルの性能について広範な分析を行う。SECQUE を公開することにより、金融 AI に関する今後の研究と進展を促すことを目指す。

論文の面白いところ

金融分野の LLM 評価では、単なる金融用語の知識やセンチメント分類だけでは足りない。実務では、長い提出書類の中から該当箇所を探し、表の値を読み、比率を計算し、会社間や年度間の違いを説明する必要がある。SECQUE はこの作業に近い形式で問題を作っている点が重要である。対象文書は SEC の 10-K と 10-Q であり、公開情報を使いながらも、質問は金融分析の専門家が作成している。データは 29 社、45 件の提出書類、2018 年から 2024 年までの提出分を含む。質問には正解だけでなく、参照すべき提出書類の accession number、ページ、項目も付けられている。これにより、モデルの答えが「それらしい金融コメント」なのか、文書に基づく分析なのかを区別しやすくしている。さらに、同じ文書を HTML 表、Markdown 表、ヘッダ有無の違いで与え、表現形式が性能に与える影響も調べている。金融 AI の評価を、アプリケーションに近い単位へ寄せた論文といえる。

問題設定

この論文が扱う問題は、LLM が SEC 提出書類を読んで金融分析の質問に答えられるかを、再現可能な形で測ることである。一般的なベンチマークは、短い入力や単一の分類タスクに寄ることが多く、金融分析の作業を十分には反映しない。金融アナリストの問いは、複数年度の比較、財務比率の計算、リスク要因の要約、数値と文章を組み合わせた判断を含む。SECQUE では、これらを比較・トレンド分析 220 件、比率分析 188 件、リスク要因 85 件、アナリスト向け洞察 72 件に分けている。各問題は、与えられた文脈だけから客観的に答えられるように作られている。文脈は平均で複数のチャンクからなり、表や文章をまたいだ読解が必要になる。HTML 表現では平均 5.4K トークン、Markdown 表現では平均 2.9K トークンであり、長い文脈を扱う能力も問われる。したがって、このベンチマークは金融知識だけでなく、長文読解、表理解、数値計算、説明生成を同時に見る設計である。

提案手法

SECQUE の中心は、専門家が作った 565 件の自由記述型質問と、その正解、参照文脈、メタデータからなるデータセットである。質問の材料には SEC EDGAR から得られる 10-K と 10-Q を使い、対象部分をページ単位のチャンクとして切り出している。表は Markdown と HTML の二形式で与えられ、各形式についてヘッダを付ける場合と付けない場合を用意している。これにより、表の構造を明示するほどモデルが読みやすくなるのか、あるいはトークン数の削減が効くのかを比較できる。自由記述の答えを採点するため、著者らは SECQUE-Judge も提案している。これは GPT-4o を用いた単一 judge を同じプロンプトで 5 回呼び、0(不正解)、1(部分正解)、2(正解)のスコアを合計して最終判定に写す方式である。合計点 S が 6 以上なら 2、4 以上 6 未満なら 1、4 未満なら 0 とするしきい値を、人間評価との一致が高くなるように定めている。評価対象モデルには GPT-4o、GPT-4o-mini、Llama-3.3-70B-Instruct、Llama-3.1-8B-Instruct、Qwen2.5-32B-Instruct、Mistral-Nemo-Instruct-2407、Phi-4 が含まれる。

結果

SECQUE-Judge は、人間評価との比較で、完全正解クラスに対する F1 が 0.85、precision が 0.905、recall が 0.8、accuracy が 0.75 であった。単一 judge や単純な多数決よりも、5 回の judge 結果をしきい値でまとめる方式のほうが高い一致を示した。ただし、部分正解と不正解の区別は完全ではなく、著者らもこの点を制約として扱っている。モデル比較では、GPT-4o が Strict Accuracy 0.69、Normalized Accuracy 0.79 で最も高かった。GPT-4o-mini と Llama-3.3-70B-Instruct はそれに続き、Qwen2.5-32B-Instruct も近い範囲にある。小型モデルは全体に低く、特に Mistral-Nemo-Instruct-2407 は差が大きかった。問題種別では、リスク要因の読解は多くのモデルが比較的高く、最低限の金融文書読解としては解きやすい。一方で、比率分析、比較・トレンド分析、アナリスト向け洞察では差が広がり、とくに洞察生成はほぼ全モデルで低かった。アブレーションでは、HTML 表のほうが小型モデルにはやや扱いやすく、Markdown は短いが構造情報が薄くなる傾向が見られた。プロンプト変更の影響は大きく、金融向けに見える詳細なプロンプトや Chain-of-Thought 指示が、必ずしも性能を上げるわけではなかった。

具体例

たとえば、入力として「NVIDIA の Interest Coverage Ratio は 2023 年から 2024 年にかけてどう変化したか」という質問と、NVIDIA の 10-K から切り出した損益計算書の表が与えられる。モデルはまず、Interest Coverage Ratio が EBIT を支払利息で割る比率であることを使う必要がある。次に、表の中から 2024 年の operating income 32,972 million ドルと interest expense 257 million ドルを取り、2023 年については operating income 4,224 million ドルと interest expense 262 million ドルを取る。期待される答えは、2024 年の比率が 128.3、2023 年の比率が 16.1 であり、大きく改善したという説明である。このとき、interest income と interest expense を取り違えると計算が崩れる。括弧付きの費用表記を負の数として過剰に扱うことも誤りになりうる。さらに、年度列の対応を読み違えると、正しい式を使っていても答えは不正確になる。SECQUE が見ているのは、このような表の読解、式の選択、計算、短い金融説明を一続きの作業として行えるかである。