Untitled

生成日: 2026-05-24 02:20

# Untitled
論文タイトル: Rethinking Prompt Optimizers: From Prompt Merits to Optimization
著者: Zhu, Zixiao and Zhou, Hanzhang and Feng, Zijian and Li, Tianjiao and Deryl, Chua Jia Jim and Mak, Lee Onn and Ng, Gee Wah and Mao, Kezhi
会議: Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)
URL: https://aclanthology.org/2026.eacl-long.38/

どんな論文か

プロンプト最適化は、ユーザーが毎回うまい指示文を書けなくてもLLMの出力を良くするための方法です。ただ、この論文が疑っているのは「強いLLMが作った長くて丁寧なプロンプトなら、小さいモデルにも効くはず」という前提です。著者らはこれを downward compatibility と呼び、実験ではむしろ軽量モデルが長い指示に振り回され、計算や分類で余計な推論をして失敗する例を示しています。

そこで提案するのが MePO です。GPT-4のようなオンラインの強力なモデルに毎回頼るのではなく、良いプロンプトに共通する性質を明示して、その性質に沿ってプロンプトを直すローカルな最適化モデルを作る、という発想です。論文で使う主な性質は、明確さ、精密さ、短い思考手順、元の情報を落とさないこと、の4つです。

MePOはQwen2.5-7B-Instructをベースに、著者らが作ったPOPというプロンプト選好データでDPO学習されています。狙いはかなり実務寄りで、APIコストやプライバシーの問題を避けつつ、軽量モデルにも大型モデルにも使えるプロンプト最適化器を作ることです。

何を調べたか

- 対象タスクはARC-Easy、ARC-Challenge、GSM8K、BBH、PiQAと、Vicuna Eval、BPO-Test Eval、Self-Instruct Evalの命令追従系ベンチマーク。
- 推論モデルはQwen2-7B、Tulu2-7B-DPO、LLaMA2-7B-Chat、Gemma2-9B、Qwen3-8Bに加え、命令追従評価ではGPT-4o、DeepSeek-R1、Qwen-7B-Chat、Vicuna-7Bも使用。
- 比較対象は未最適化プロンプト、推論モデル自身によるプロンプト書き換え、既存のローカル最適化手法BPOとFIPO。
- GSM8K、BBH、PiQAは3-shot、それ以外はzero-shot。最適化するのはテストクエリ部分のみ。
- POPデータセットはAlpacaとBPOを元に作成。最終的に約40kサンプルで、内訳はAlpaca由来25,526件、Alpaca劣化版3,000件、BPO由来10,225件、BPO劣化版1,400件。
- 評価指標は、QA・数学・常識推論では正解率、命令追従ではGPT-4oによるペア比較のwin/tie/lose、プロンプト単体評価ではDeepSeek-R1などによる選好率。

主な結果

QA・数学・常識推論の表では、MePOが全ての推論モデルで平均スコアを最も高くしました。平均値を見ると、Qwen2-7Bで74.56、Tulu2-7B-DPOで49.04、LLaMA2-7B-Chatで39.66、Gemma2-9Bで72.94、Qwen3-8Bで76.88です。既存手法との差は大きすぎるわけではありませんが、著者らのまとめでは平均でQwen2-7Bが+1.00、Tulu2-7Bが+2.37、LLaMA2-7Bが+2.34、Gemma2-9Bが+2.86、Qwen3-8Bが+1.69ポイント改善しています。

効き方にも癖があります。たとえばLLaMA2-7BのGSM8KではFIPOの24.72に対してMePOは29.42、Gemma2-9BのGSM8KではFIPOの64.75に対して68.67です。Tulu2-7BではARC-EasyがFIPO 50.55からMePO 55.05、BBHが39.56から43.25まで上がっています。単に「長く詳しく書く」より、軽量モデルが処理しやすい形に整えることが効いていそうです。

命令追従の評価でもMePOは強めです。GPT-4oを推論モデルにした場合、未最適化プロンプトとの比較でMePO側のwinがVicuna Eval 31.7%、BPO-test Eval 32.0%、Self-Instruct Eval 47.5%で、負けはそれぞれ6.4%、7.0%、2.5%でした。DeepSeek-R1でもBPO-test Evalでは37.0%対5.0%、Self-Instruct Evalでは31.2%対16.3%で勝っています。プロンプト単体の評価では、最適化後プロンプトがBPOで95.75%、Alpacaで97.9%選ばれました。

ポイント

面白いのは、「強いモデルが書いた立派なプロンプト」をそのまま正解扱いしないところです。小さいモデルには、小さいモデルなりの読みやすさがあります。人間向けには親切に見える長い手順が、7B級モデルにはノイズになる。この論文はそこをかなり正面から扱っています。

実務的には、ローカルで動くプロンプト最適化器としての使い道があります。ユーザーの入力を毎回外部APIに投げたくない環境や、軽量モデルを社内・端末側で使う環境では、MePOのように「明確さ」「精密さ」「元情報の保持」を学習済みの書き換え器があると扱いやすいはずです。プロンプトエンジニアリングを、職人芸ではなく前処理モデルとして切り出す感じに近いです。

一方で、限界もあります。MePOは基本的に一回だけプロンプトを書き換える方式で、ユーザーとの対話や推論モデルの失敗結果を見て継続的に直す仕組みではありません。論文自身も、推論モデルと最適化モデルのアーキテクチャをもっと合わせれば追加の改善がありそうだと述べています。なので、これでプロンプト最適化が終わるというより、「API依存の重い最適化」から「ローカルで解釈しやすい最適化」へ寄せる一歩、と見るのがよさそうです。

一言でいうと、MePOは「強いLLMに長いプロンプトを書かせる」発想を少し疑って、軽量モデルにも読めるプロンプト最適化をローカルに学習させた研究です。

Untitled

論文タイトル: Rethinking Prompt Optimizers: From Prompt Merits to Optimization 著者: Zhu, Zixiao and Zhou, Hanzhang and Feng, Zijian and Li, Tianjiao and Deryl, Chua Jia Jim and Mak, Lee Onn and Ng, Gee Wah and Mao, Kezhi 会議: Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers) URL: https://aclanthology.org/2026.eacl-long.38/

どんな論文か

プロンプト最適化は、ユーザーが毎回うまい指示文を書けなくてもLLMの出力を良くするための方法です。ただ、この論文が疑っているのは「強いLLMが作った長くて丁寧なプロンプトなら、小さいモデルにも効くはず」という前提です。著者らはこれを downward compatibility と呼び、実験ではむしろ軽量モデルが長い指示に振り回され、計算や分類で余計な推論をして失敗する例を示しています。

そこで提案するのが MePO です。GPT-4のようなオンラインの強力なモデルに毎回頼るのではなく、良いプロンプトに共通する性質を明示して、その性質に沿ってプロンプトを直すローカルな最適化モデルを作る、という発想です。論文で使う主な性質は、明確さ、精密さ、短い思考手順、元の情報を落とさないこと、の4つです。

MePOはQwen2.5-7B-Instructをベースに、著者らが作ったPOPというプロンプト選好データでDPO学習されています。狙いはかなり実務寄りで、APIコストやプライバシーの問題を避けつつ、軽量モデルにも大型モデルにも使えるプロンプト最適化器を作ることです。

何を調べたか

対象タスクはARC-Easy、ARC-Challenge、GSM8K、BBH、PiQAと、Vicuna Eval、BPO-Test Eval、Self-Instruct Evalの命令追従系ベンチマーク。
推論モデルはQwen2-7B、Tulu2-7B-DPO、LLaMA2-7B-Chat、Gemma2-9B、Qwen3-8Bに加え、命令追従評価ではGPT-4o、DeepSeek-R1、Qwen-7B-Chat、Vicuna-7Bも使用。
比較対象は未最適化プロンプト、推論モデル自身によるプロンプト書き換え、既存のローカル最適化手法BPOとFIPO。
GSM8K、BBH、PiQAは3-shot、それ以外はzero-shot。最適化するのはテストクエリ部分のみ。
POPデータセットはAlpacaとBPOを元に作成。最終的に約40kサンプルで、内訳はAlpaca由来25,526件、Alpaca劣化版3,000件、BPO由来10,225件、BPO劣化版1,400件。
評価指標は、QA・数学・常識推論では正解率、命令追従ではGPT-4oによるペア比較のwin/tie/lose、プロンプト単体評価ではDeepSeek-R1などによる選好率。

主な結果

QA・数学・常識推論の表では、MePOが全ての推論モデルで平均スコアを最も高くしました。平均値を見ると、Qwen2-7Bで74.56、Tulu2-7B-DPOで49.04、LLaMA2-7B-Chatで39.66、Gemma2-9Bで72.94、Qwen3-8Bで76.88です。既存手法との差は大きすぎるわけではありませんが、著者らのまとめでは平均でQwen2-7Bが+1.00、Tulu2-7Bが+2.37、LLaMA2-7Bが+2.34、Gemma2-9Bが+2.86、Qwen3-8Bが+1.69ポイント改善しています。

効き方にも癖があります。たとえばLLaMA2-7BのGSM8KではFIPOの24.72に対してMePOは29.42、Gemma2-9BのGSM8KではFIPOの64.75に対して68.67です。Tulu2-7BではARC-EasyがFIPO 50.55からMePO 55.05、BBHが39.56から43.25まで上がっています。単に「長く詳しく書く」より、軽量モデルが処理しやすい形に整えることが効いていそうです。

命令追従の評価でもMePOは強めです。GPT-4oを推論モデルにした場合、未最適化プロンプトとの比較でMePO側のwinがVicuna Eval 31.7%、BPO-test Eval 32.0%、Self-Instruct Eval 47.5%で、負けはそれぞれ6.4%、7.0%、2.5%でした。DeepSeek-R1でもBPO-test Evalでは37.0%対5.0%、Self-Instruct Evalでは31.2%対16.3%で勝っています。プロンプト単体の評価では、最適化後プロンプトがBPOで95.75%、Alpacaで97.9%選ばれました。

ポイント

面白いのは、「強いモデルが書いた立派なプロンプト」をそのまま正解扱いしないところです。小さいモデルには、小さいモデルなりの読みやすさがあります。人間向けには親切に見える長い手順が、7B級モデルにはノイズになる。この論文はそこをかなり正面から扱っています。

実務的には、ローカルで動くプロンプト最適化器としての使い道があります。ユーザーの入力を毎回外部APIに投げたくない環境や、軽量モデルを社内・端末側で使う環境では、MePOのように「明確さ」「精密さ」「元情報の保持」を学習済みの書き換え器があると扱いやすいはずです。プロンプトエンジニアリングを、職人芸ではなく前処理モデルとして切り出す感じに近いです。

一方で、限界もあります。MePOは基本的に一回だけプロンプトを書き換える方式で、ユーザーとの対話や推論モデルの失敗結果を見て継続的に直す仕組みではありません。論文自身も、推論モデルと最適化モデルのアーキテクチャをもっと合わせれば追加の改善がありそうだと述べています。なので、これでプロンプト最適化が終わるというより、「API依存の重い最適化」から「ローカルで解釈しやすい最適化」へ寄せる一歩、と見るのがよさそうです。

一言でいうと、MePOは「強いLLMに長いプロンプトを書かせる」発想を少し疑って、軽量モデルにも読めるプロンプト最適化をローカルに学習させた研究です。