MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection

生成日: 2026-05-24 02:20

# MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection

- 教育場面の多モーダル数学問題について、学生の誤答のどの段階が初めて誤っているか、また誤りの種類は何かを判定する研究である。
- MATHAGENT は、画像と文章の整合性確認、図の意味表現への変換、解答過程の統合的な解析を、三つのエージェントに分けて行う。
- 実教育プラットフォーム由来の 2,500 問で評価され、複数の Multimodal Large Language Model（MLLM）に対して平均 4.2 ポイントの改善を示した。

## 論文の面白いところ

この論文は、数学問題を「解く」ことよりも、学生がどこで間違えたかを調べることに重点を置いている。教育では最終答案の正誤だけでは足りず、途中の誤りを見つけなければ指導につながりにくい。とくに図形や表を含む問題では、文章だけを読むモデルでは、図中の角度、長さ、ラベルの読み違いを十分に扱えない。MATHAGENT は、この弱点を一つの大きなモデルに任せず、作業を段階に分けて処理する。画像と文章がほぼ同じ内容なら余分な変換を省き、違いが大きいときだけ図の情報を形式化する点も実務的である。評価データが合成問題ではなく、オンライン教育プラットフォーム上の実際の誤答から作られていることも目を引く。さらに、実験だけでなく、K-12 向け教育プラットフォームへの導入結果まで記している。性能は人間には及ばないが、現場でどの程度役に立つかを測ろうとしている点に、この論文の特色がある。

## 問題設定

対象は、多モーダルな数学問題における誤り検出である。一つの入力には、問題文、図や表などの画像、正しい解答、学生の誤答、学生が書いた解答手順が含まれる。モデルはまず、学生の手順列の中で最初に誤ったステップを特定する。次に、その誤りを Visual Perception（図の読み取り）、Calculation（計算）、Reasoning（推論）、Knowledge（知識）、Misinterpretation（問題文の取り違え）の五分類に分ける。評価指標は、それぞれの正解率である。論文のデータセットは 2,500 問からなり、平面図形が 62.4% を占め、代数、図表、立体図形、数学常識の問題も含む。誤りの内訳では、推論誤りと計算誤りが多く、図の読み取り誤りも 15.8% ある。

## 提案手法

MATHAGENT は、Mixture-of-Math-Agent と呼ばれる三段階の枠組みである。第一段階では、Image-Text Consistency Validator が問題文と画像を比べ、両者が高い意味的整合性を持つかどうかを判定する。画像と文章がほぼ同じ情報を与えている場合は、後続の視覚変換を省き、処理を軽くする。第二段階では、Visual Semantic Interpreter が問題の種類に応じて画像情報を文字列へ変換する。平面図形なら、点、線分、角度などを形式言語で表し、表や図表なら LaTeX 風の表現を用い、それ以外の画像では説明文を生成する。論文の実装では、平面図形には Inter-GPS、表には StructTable-InternVL2-1B、一般画像には vit-gpt2-image-captioning を用いる。第三段階では、Integrative Error Analyzer が問題文、変換済みの画像情報、正答、学生の誤答、学生の手順をまとめて読む。この段階のモデルは任意の MLLM に差し替えられ、出力は誤りステップの番号と誤り分類である。全体として、図の読み取りと解答過程の検査を混ぜずに扱うことで、単純なプロンプト投入より安定した診断を目指している。

## 結果

実験では、GPT-4o、Gemini-Pro-1.5、Claude-3.5-Sonnet、Qwen-VL-Max、InternVL2、LLaVA-NEXT の六つの MLLM を比較した。各モデルを単独で使う場合をベースラインとし、同じモデルを MATHAGENT の第三段階に組み込んだ場合と比べている。平均では、誤りステップ特定が 5.2 ポイント、誤り分類の総合値が 3.2 ポイント、全体平均が 4.2 ポイント改善した。GPT-4o では全体平均が 54.09% から 57.30% へ上がった。改善は、図の読み取り誤りと問題文の取り違えで大きく、視覚情報と問題理解のずれを扱う枠組みの効果が出ている。一方で、最良の MATHAGENT 構成でも人間評価者の 76.91% には届かない。アブレーションでは、問題種別に応じた視覚意味変換を外すと性能が大きく下がり、一般的な画像説明だけでは図形の長さや角度を落としやすいことが示された。導入面では、1 万人規模の A/B テストで、MATHAGENT を用いたフィードバックの満足度が 90% 超、従来の MLLM ベースのフィードバックが 75% と報告されている。

## 具体例

たとえば、問題文が「図の三角形 ABC で、AB = AC、∠A = 40° のとき ∠B を求めよ」とし、画像には二等辺三角形と辺 AB、AC の等長記号が描かれているとする。学生の手順が「三角形の内角の和は 180°。残りは 140°。∠B と ∠C は等しい。したがって ∠B = 60°」で終わっていれば、最終値は誤りである。MATHAGENT はまず、文章と画像が同じ三角形条件を述べているかを調べる。次に、図から Triangle(A,B,C)、Equal(AB,AC)、Angle(A,40) のような関係を取り出す。最後に、正しい解法では残り 140° を二等分して ∠B = 70° になることと、学生の各手順を照合する。この例では、誤りは最後の計算で 140 ÷ 2 を 60 とした箇所にあるため、誤りステップは最終ステップ、分類は Calculation となる。もし画像の等長記号を見落として ∠B と ∠C が等しいと判断できなかった場合は、同じ問題でも Visual Perception の誤りとして扱われる可能性がある。

MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection

教育場面の多モーダル数学問題について、学生の誤答のどの段階が初めて誤っているか、また誤りの種類は何かを判定する研究である。
MATHAGENT は、画像と文章の整合性確認、図の意味表現への変換、解答過程の統合的な解析を、三つのエージェントに分けて行う。
実教育プラットフォーム由来の 2,500 問で評価され、複数の Multimodal Large Language Model（MLLM）に対して平均 4.2 ポイントの改善を示した。

論文の面白いところ

この論文は、数学問題を「解く」ことよりも、学生がどこで間違えたかを調べることに重点を置いている。教育では最終答案の正誤だけでは足りず、途中の誤りを見つけなければ指導につながりにくい。とくに図形や表を含む問題では、文章だけを読むモデルでは、図中の角度、長さ、ラベルの読み違いを十分に扱えない。MATHAGENT は、この弱点を一つの大きなモデルに任せず、作業を段階に分けて処理する。画像と文章がほぼ同じ内容なら余分な変換を省き、違いが大きいときだけ図の情報を形式化する点も実務的である。評価データが合成問題ではなく、オンライン教育プラットフォーム上の実際の誤答から作られていることも目を引く。さらに、実験だけでなく、K-12 向け教育プラットフォームへの導入結果まで記している。性能は人間には及ばないが、現場でどの程度役に立つかを測ろうとしている点に、この論文の特色がある。

問題設定

対象は、多モーダルな数学問題における誤り検出である。一つの入力には、問題文、図や表などの画像、正しい解答、学生の誤答、学生が書いた解答手順が含まれる。モデルはまず、学生の手順列の中で最初に誤ったステップを特定する。次に、その誤りを Visual Perception（図の読み取り）、Calculation（計算）、Reasoning（推論）、Knowledge（知識）、Misinterpretation（問題文の取り違え）の五分類に分ける。評価指標は、それぞれの正解率である。論文のデータセットは 2,500 問からなり、平面図形が 62.4% を占め、代数、図表、立体図形、数学常識の問題も含む。誤りの内訳では、推論誤りと計算誤りが多く、図の読み取り誤りも 15.8% ある。

提案手法

MATHAGENT は、Mixture-of-Math-Agent と呼ばれる三段階の枠組みである。第一段階では、Image-Text Consistency Validator が問題文と画像を比べ、両者が高い意味的整合性を持つかどうかを判定する。画像と文章がほぼ同じ情報を与えている場合は、後続の視覚変換を省き、処理を軽くする。第二段階では、Visual Semantic Interpreter が問題の種類に応じて画像情報を文字列へ変換する。平面図形なら、点、線分、角度などを形式言語で表し、表や図表なら LaTeX 風の表現を用い、それ以外の画像では説明文を生成する。論文の実装では、平面図形には Inter-GPS、表には StructTable-InternVL2-1B、一般画像には vit-gpt2-image-captioning を用いる。第三段階では、Integrative Error Analyzer が問題文、変換済みの画像情報、正答、学生の誤答、学生の手順をまとめて読む。この段階のモデルは任意の MLLM に差し替えられ、出力は誤りステップの番号と誤り分類である。全体として、図の読み取りと解答過程の検査を混ぜずに扱うことで、単純なプロンプト投入より安定した診断を目指している。

結果

実験では、GPT-4o、Gemini-Pro-1.5、Claude-3.5-Sonnet、Qwen-VL-Max、InternVL2、LLaVA-NEXT の六つの MLLM を比較した。各モデルを単独で使う場合をベースラインとし、同じモデルを MATHAGENT の第三段階に組み込んだ場合と比べている。平均では、誤りステップ特定が 5.2 ポイント、誤り分類の総合値が 3.2 ポイント、全体平均が 4.2 ポイント改善した。GPT-4o では全体平均が 54.09% から 57.30% へ上がった。改善は、図の読み取り誤りと問題文の取り違えで大きく、視覚情報と問題理解のずれを扱う枠組みの効果が出ている。一方で、最良の MATHAGENT 構成でも人間評価者の 76.91% には届かない。アブレーションでは、問題種別に応じた視覚意味変換を外すと性能が大きく下がり、一般的な画像説明だけでは図形の長さや角度を落としやすいことが示された。導入面では、1 万人規模の A/B テストで、MATHAGENT を用いたフィードバックの満足度が 90% 超、従来の MLLM ベースのフィードバックが 75% と報告されている。

具体例

たとえば、問題文が「図の三角形 ABC で、AB = AC、∠A = 40° のとき ∠B を求めよ」とし、画像には二等辺三角形と辺 AB、AC の等長記号が描かれているとする。学生の手順が「三角形の内角の和は 180°。残りは 140°。∠B と ∠C は等しい。したがって ∠B = 60°」で終わっていれば、最終値は誤りである。MATHAGENT はまず、文章と画像が同じ三角形条件を述べているかを調べる。次に、図から Triangle(A,B,C)、Equal(AB,AC)、Angle(A,40) のような関係を取り出す。最後に、正しい解法では残り 140° を二等分して ∠B = 70° になることと、学生の各手順を照合する。この例では、誤りは最後の計算で 140 ÷ 2 を 60 とした箇所にあるため、誤りステップは最終ステップ、分類は Calculation となる。もし画像の等長記号を見落として ∠B と ∠C が等しいと判断できなかった場合は、同じ問題でも Visual Perception の誤りとして扱われる可能性がある。