Awes, Laws, and Flaws From Today's LLM Research

生成日: 2026-05-24 02:20

# Awes, Laws, and Flaws From Today's LLM Research

- 2020 年から 2024 年までの大規模言語モデル研究 2,054 本を、再現性、評価、倫理、主張の観点から点検する。
- SOTA 主張を行う論文では、統計的検定やエラー分析が十分でない場合が多く、LLM を評価者として使う研究は増加している。
- ACL などのチェックリストは限界節の定着には効いているが、研究の速度と厳密さの均衡には追加の制度設計が要ると論じる。

## 論文の面白いところ

この論文は、新しいモデルを提案するのではなく、LLM 研究そのものを測定対象にしている。対象は、GPT-3 論文または GPT-4 technical report を引用した文献から集められた大規模な論文集合である。著者は、研究が何を主張しているかだけでなく、その主張を支える手続きが書かれているかを調べる。たとえば、統計的有意性検定の有無、モデルや API のバージョン、呼び出しパラメータ、乱数性への配慮、限界節、倫理節、エラー分析をラベルにしている。LLM 研究では、評価対象も評価者も LLM である場合があり、その点が従来の自然言語処理より扱いにくい。論文はこの混乱を、印象批評ではなく、2,000 本規模の文献に対するラベル付けと集計で示そうとする。皮肉なことに、そのラベル付け自体にも GPT-4o を使っており、著者は別途人手評価で信頼性を確認している。平均精度は 91.91 ± 1.22% と報告され、完全ではないが、文献全体の傾向を見るには使える水準とされる。この自己言及的な構造が、本論文を単なる批判ではなく、現在の研究実務に近い調査にしている。

## 問題設定

LLM 研究は急速に増え、モデルの能力に関する強い主張も多くなった。一方で、閉じた API、頻繁なバージョン更新、確率的な出力、プロンプトへの感度のため、実験の再現は簡単ではない。論文が SOTA、推論能力、創発的能力、汎用知能に近い性質などを主張する場合、その評価手続きは特に明確である必要がある。しかし実際には、精度などの集計値だけを示し、詳細なプロトコルやエラーの内訳を欠く研究もある。LLM を評価者として使う方法も広がっているが、その妥当性には賛否があり、単一のプロンプトや単一の評価者に依存すると結果が不安定になりやすい。倫理的影響や非英語・方言への評価も、研究対象が広がるほど重要になる。著者の問いは、現在の LLM 研究が、主張の大きさに見合うだけの測定と透明性を備えているかである。さらに、会議のチェックリストや限界節の義務化が、実際に論文の構造へ影響しているかも見る。

## 提案手法

著者はまず、Google Scholar と Scopus から、GPT-3 論文および GPT-4 technical report を引用する文献を収集した。Google Scholar からは両文献について引用数上位 1,000 件を取得し、Scopus からは GPT-3 論文について引用数上位 2,000 件を取得している。重複を除いた未ラベル集合は 3,914 本であり、そこから LLM を研究対象とする研究論文を抽出して、最終的に 2,054 本を分析した。ラベルは、研究上の特徴、構造上の特徴、論文が行う主張、分析対象であるかを判定する指標に分けられている。ラベル付けには GPT-4o を用い、temperature は 0、最大出力トークン数は 256 とし、Azure OpenAI API 経由で実行した。プロンプトは複数に分け、各ラベルについて yes、no、必要な場合は not applicable を返させる。さらに、各基準ごとにおよそ 100 本を人手で確認し、自動ラベルの精度と信頼区間を求めた。集計では、年ごとの変化、SOTA 主張との重なり、評価者の種類、引用数との関係を調べている。引用数との関係には二標本 Kolmogorov-Smirnov 検定を用い、ある基準を持つ論文と持たない論文の分布差を見ている。

## 結果

分析対象のうち、SOTA を主張する論文は 57% であった。その中で倫理的考慮に触れたものは約 3 分の 1、非英語で評価したものは 13% にとどまる。限界節を持たない論文も 39% あり、統計的検定を用いた論文は約 4 分の 1であった。SOTA と創発的能力を同時に主張する論文でも、統計的検定やエラー分析を伴うものは少なかった。2023 年から 2024 年にかけては、倫理節、オープンソース化、統計的検定、創発性の主張の割合が下がった。一方で、LLM を評価者として使う研究は 15% 増え、LLM が推論できるとする主張も増えている。限界節の割合は比較的安定しており、著者は ACL などで限界節が求められていることの効果と見る。引用数との分析では、倫理節、限界節、LLM 評価者、automatic evaluator、オープンソース化、推論能力の主張などで分布差が見られた。ただし引用数は会議、時期、著者、話題性の影響を受けるため、著者はこの結果を因果としては扱わない。結論として、LLM 研究には速さの利点があるが、測定の厳密さと透明性を明示的に守る仕組みが必要だと述べる。

## 具体例

たとえば、ある論文が新しいプロンプト手法を提案し、GPT-4 で既存手法より高い正答率を出したとして SOTA を主張しているとする。この調査の手順では、その論文本文を入力として、まず LLM が研究対象か、研究論文か、SOTA 主張があるかを判定する。次に、使った GPT-4 のバージョンが書かれているか、temperature などの呼び出しパラメータが書かれているか、同じ入力を複数回試すなど乱数性への配慮があるかを見る。評価が GPT-4 による採点だけなら、評価者の種類には LLM が入るが、人間や自動指標を併用しているかは別に記録される。期待される望ましい論文は、正答率だけでなく、どの種類の問題で失敗したか、差が統計的に信頼できるか、結果がモデル更新で変わりうるかも書く。間違えやすい点は、SOTA という語があるだけで研究が厳密だと考えることである。むしろ本論文の観点では、大きな主張ほど、モデルの版、プロンプト、評価者、統計検定、エラー分析が揃っているかを読む必要がある。もしこれらが欠けていれば、その研究は役に立たないとは限らないが、再現や比較の根拠は弱くなる。

Awes, Laws, and Flaws From Today's LLM Research

2020 年から 2024 年までの大規模言語モデル研究 2,054 本を、再現性、評価、倫理、主張の観点から点検する。
SOTA 主張を行う論文では、統計的検定やエラー分析が十分でない場合が多く、LLM を評価者として使う研究は増加している。
ACL などのチェックリストは限界節の定着には効いているが、研究の速度と厳密さの均衡には追加の制度設計が要ると論じる。

論文の面白いところ

この論文は、新しいモデルを提案するのではなく、LLM 研究そのものを測定対象にしている。対象は、GPT-3 論文または GPT-4 technical report を引用した文献から集められた大規模な論文集合である。著者は、研究が何を主張しているかだけでなく、その主張を支える手続きが書かれているかを調べる。たとえば、統計的有意性検定の有無、モデルや API のバージョン、呼び出しパラメータ、乱数性への配慮、限界節、倫理節、エラー分析をラベルにしている。LLM 研究では、評価対象も評価者も LLM である場合があり、その点が従来の自然言語処理より扱いにくい。論文はこの混乱を、印象批評ではなく、2,000 本規模の文献に対するラベル付けと集計で示そうとする。皮肉なことに、そのラベル付け自体にも GPT-4o を使っており、著者は別途人手評価で信頼性を確認している。平均精度は 91.91 ± 1.22% と報告され、完全ではないが、文献全体の傾向を見るには使える水準とされる。この自己言及的な構造が、本論文を単なる批判ではなく、現在の研究実務に近い調査にしている。

問題設定

LLM 研究は急速に増え、モデルの能力に関する強い主張も多くなった。一方で、閉じた API、頻繁なバージョン更新、確率的な出力、プロンプトへの感度のため、実験の再現は簡単ではない。論文が SOTA、推論能力、創発的能力、汎用知能に近い性質などを主張する場合、その評価手続きは特に明確である必要がある。しかし実際には、精度などの集計値だけを示し、詳細なプロトコルやエラーの内訳を欠く研究もある。LLM を評価者として使う方法も広がっているが、その妥当性には賛否があり、単一のプロンプトや単一の評価者に依存すると結果が不安定になりやすい。倫理的影響や非英語・方言への評価も、研究対象が広がるほど重要になる。著者の問いは、現在の LLM 研究が、主張の大きさに見合うだけの測定と透明性を備えているかである。さらに、会議のチェックリストや限界節の義務化が、実際に論文の構造へ影響しているかも見る。

提案手法

著者はまず、Google Scholar と Scopus から、GPT-3 論文および GPT-4 technical report を引用する文献を収集した。Google Scholar からは両文献について引用数上位 1,000 件を取得し、Scopus からは GPT-3 論文について引用数上位 2,000 件を取得している。重複を除いた未ラベル集合は 3,914 本であり、そこから LLM を研究対象とする研究論文を抽出して、最終的に 2,054 本を分析した。ラベルは、研究上の特徴、構造上の特徴、論文が行う主張、分析対象であるかを判定する指標に分けられている。ラベル付けには GPT-4o を用い、temperature は 0、最大出力トークン数は 256 とし、Azure OpenAI API 経由で実行した。プロンプトは複数に分け、各ラベルについて yes、no、必要な場合は not applicable を返させる。さらに、各基準ごとにおよそ 100 本を人手で確認し、自動ラベルの精度と信頼区間を求めた。集計では、年ごとの変化、SOTA 主張との重なり、評価者の種類、引用数との関係を調べている。引用数との関係には二標本 Kolmogorov-Smirnov 検定を用い、ある基準を持つ論文と持たない論文の分布差を見ている。

結果

分析対象のうち、SOTA を主張する論文は 57% であった。その中で倫理的考慮に触れたものは約 3 分の 1、非英語で評価したものは 13% にとどまる。限界節を持たない論文も 39% あり、統計的検定を用いた論文は約 4 分の 1であった。SOTA と創発的能力を同時に主張する論文でも、統計的検定やエラー分析を伴うものは少なかった。2023 年から 2024 年にかけては、倫理節、オープンソース化、統計的検定、創発性の主張の割合が下がった。一方で、LLM を評価者として使う研究は 15% 増え、LLM が推論できるとする主張も増えている。限界節の割合は比較的安定しており、著者は ACL などで限界節が求められていることの効果と見る。引用数との分析では、倫理節、限界節、LLM 評価者、automatic evaluator、オープンソース化、推論能力の主張などで分布差が見られた。ただし引用数は会議、時期、著者、話題性の影響を受けるため、著者はこの結果を因果としては扱わない。結論として、LLM 研究には速さの利点があるが、測定の厳密さと透明性を明示的に守る仕組みが必要だと述べる。

具体例

たとえば、ある論文が新しいプロンプト手法を提案し、GPT-4 で既存手法より高い正答率を出したとして SOTA を主張しているとする。この調査の手順では、その論文本文を入力として、まず LLM が研究対象か、研究論文か、SOTA 主張があるかを判定する。次に、使った GPT-4 のバージョンが書かれているか、temperature などの呼び出しパラメータが書かれているか、同じ入力を複数回試すなど乱数性への配慮があるかを見る。評価が GPT-4 による採点だけなら、評価者の種類には LLM が入るが、人間や自動指標を併用しているかは別に記録される。期待される望ましい論文は、正答率だけでなく、どの種類の問題で失敗したか、差が統計的に信頼できるか、結果がモデル更新で変わりうるかも書く。間違えやすい点は、SOTA という語があるだけで研究が厳密だと考えることである。むしろ本論文の観点では、大きな主張ほど、モデルの版、プロンプト、評価者、統計検定、エラー分析が揃っているかを読む必要がある。もしこれらが欠けていれば、その研究は役に立たないとは限らないが、再現や比較の根拠は弱くなる。