FEAT: A Preference Feedback Dataset through a Cost-Effective Auto-Generation and Labeling Framework for English AI Tutoring

生成日:

FEAT: A Preference Feedback Dataset through a Cost-Effective Auto-Generation and Labeling Framework for English AI Tutoring

Abstract(日本語訳)

英語教育の tutoring において、教師フィードバックは学生を導くために不可欠である。近年、教師を支援する AI ベースの tutoring system が現れているが、これらの system には高品質かつ大規模な教師フィードバックデータが必要であり、それを手作業で作成するには時間と費用がかかる。本研究では、教師フィードバックを生成するための費用対効果の高い枠組み FEAT を提案し、相互に補完的な三つのデータセットを構築した。第一に DIRECT-Manual(DM)は、人間と大規模言語モデル(LLM)が協調して高品質な教師フィードバックを生成するが、費用は高い。第二に DIRECT-Generated(DG)は、LLM のみで生成された費用対効果の高いデータセットであるが、品質は低い。第三に DIRECT-Augmented(DA)は、主に DG に基づき、品質を高めつつ費用効率を保つために少量の DM を加えたものである。実験結果は、DG に少量の DM(5〜10%)を組み込むと、100% DM のみを用いる場合よりも高い性能につながることを示した。

論文の面白いところ

この論文は、教育用 LLM の質を上げるために必要な「よいフィードバックの選好データ」を、どこまで人手を減らして作れるかを扱う。英語読解 tutoring では、単に正解を教えるよりも、学生が本文を見直せるように促す返答が望ましい。しかし、そのような返答を大量に集め、さらにどちらがよいかを人間が順位付けする作業は重い。FEAT は、フィードバックの生成だけでなく、選好ペアの作成まで LLM に担わせる。興味深いのは、全体を LLM だけに任せるのではなく、少量の人手データを混ぜる条件を丁寧に比較している点である。結果は、単純に人手データを増やすより、LLM 生成データの多様さに少量の人手ラベルを足すほうが有利になる場合を示している。これは、教育データの作成を、完全自動化か完全人手かの二択で考えないための実証例である。

問題設定

対象は、英語読解の教師と学生の対話におけるフィードバック生成である。入力には物語文、質問、学生の誤答、これまでの対話履歴が含まれる。モデルは、学生に正答を直接明かしすぎず、誤りに気づかせる教師らしい返答を選べる必要がある。論文では、この返答の良し悪しを ranking model に学習させるため、選ばれるべきフィードバックと退けるべきフィードバックのペアを作る。評価では、人間が作った順位とモデルが予測した順位の近さを Rank-biased overlap(RBO)で測る。RBO はランキング同士の重なりを測る指標で、1 に近いほど一致が高い。課題の中心は、手作業の順位付けを減らしても、人間の判断に近い ranking model を訓練できるかにある。

提案手法

FEAT は、教師フィードバックの候補を作り、その候補間の選好関係をデータ化する枠組みである。フィードバックの品質基準として、Correct、Revealing、Guidance、Diagnostic、Encouragement の五項目を用いる。Correct は内容が正確であること、Revealing は答えを直接出しすぎないことを表す。Guidance、Diagnostic、Encouragement は、学習者を導き、誤りの性質を示し、意欲を保つための観点である。DIRECT-Manual(DM)では、人間、既存 system、GPT-3.5、GPT-4 などから得た候補を人間が順位付けし、順位の高い候補を chosen、低い候補を rejected とする。DIRECT-Generated(DG)では、MCTest の読解問題を tutoring scenario に変換し、LLM が基準ありの返答と基準なしの返答を生成する。そのうえで、基準ありの返答を chosen、基準なしの返答を rejected として扱う。DIRECT-Augmented(DA)は DG を土台にし、少量の DM を加えた混合データである。ranking model には binary classifier、reward model、Direct Preference Optimization(DPO)、RankNet、および多数決の ensemble を用いる。

結果

DG だけで訓練した場合でも、DM で訓練した場合に近い順位予測性能が得られた。DM→DM 条件は全体として RBO 0.77〜0.80 程度で安定しており、人手ラベル中心の上限に近い比較対象として用いられる。DG→DM では、binary classifier が Llama-1B で 0.76、reward model が Llama-3B-IT で 0.73、RankNet と ensemble が Qwen-3B-IT で 0.76 に達した。DA→DM では、Llama-3B-IT において、5% の DM を加えるだけで binary classifier、DPO、ensemble が DM→DM を上回った。reward model と RankNet も、5〜10% の人手ラベル追加で DM→DM を超える範囲があった。Qwen-3B-IT では、DM の比率を 50〜100% 程度まで増やした場合に DM→DM を上回る傾向が強かった。五つの基準を使う効果も調べており、二つの基準だけを使う場合と比べて、Llama-1B ではすべての ranking approach で改善が見られた。著者らは、豊かなフィードバック基準がモデルの汎化に寄与すると解釈している。

具体例

たとえば、物語文に「Alyssa は友人を訪ねるために Miami へ行き、先に beach で泳いだ」と書かれているとする。質問は「Alyssa はなぜ Miami へ行ったのか」で、学生は「泳ぐため」と答える。このとき望ましい教師フィードバックは、「本文の中で Miami へ行った目的を述べている箇所をもう一度見てみましょう」のように、答えを直接言わず、読むべき場所を示す返答である。FEAT では、同じ入力に対して、基準を明示したプロンプトで作った返答と、基準を明示しない返答を生成する。基準ありの返答は、正確で、答えを明かしすぎず、学生が誤答から戻れるように作られることを期待される。ranking model は、二つの候補のうちどちらが教師フィードバックとしてよいかを学習する。間違えやすい点は、単に親切な文や長い文がよいとは限らないことである。「正解は友人を訪ねるためです」と即答する返答は正確ではあるが、Revealing の観点では望ましくない。逆に「もう一度考えて」とだけ言う返答は答えを隠しているが、どこを見ればよいかを示さないため、Guidance と Diagnostic が弱い。