Untitled

生成日: 2026-05-24 02:20

# Untitled
WorkForceAgent-R1: Incentivizing Reasoning Capability in LLM-based Web Agents via Reinforcement Learning
著者: Yuchen Zhuang, Di Jin, Jiaao Chen, Wenqi Shi, Hanrui Wang, Chao Zhang
会議: Findings of the Association for Computational Linguistics: EACL 2026
URL: https://aclanthology.org/2026.findings-eacl.3/

どんな論文か

企業向けのWeb画面を操作するLLMエージェントを、教師ありファインチューニングだけでなく強化学習で鍛える論文です。対象は、フォーム入力、ナレッジベース検索、サービスカタログでの注文など、いかにも社内業務で出てくるブラウザ操作です。こういう画面はHTMLが長く、要素IDも安定せず、UIも親切とは限らないので、単に「次に押すボタン」を真似るだけだと崩れやすい、という問題意識です。

提案手法のWorkForceAgent-R1は、Web操作をマルチステップ全体で一気に考えさせるのではなく、各ステップで現在の観測と過去の操作を見て、短い推論と次のアクションを出す形に分解します。出力は<think>...</think>と<action>...</action>で構造化し、正しい形式で出せたか、アクション種別やパラメータが正しいかを報酬にします。

面白いのは、長い推論データを大量に人手で作る方向ではなく、ルールベースの報酬で「それっぽい中間推論」を育てようとしているところです。GRPOを使い、候補アクション同士を比べながら、正しい操作に寄せていきます。

何を調べたか

- 評価ベンチマークはWorkArena。職場系Webタスク33種類を含み、カテゴリはdashboard、form、knowledge base、filter、sort、menu、serviceの7つ。
- 主指標はsuccess rate。全体スコアは各カテゴリの成功率をタスク数で重み付けしたもの。
- 学習データはBrowserGym環境とWorkArenaの設定から作成。各タスク10設定、合計330設定を学習用に確保し、o3-miniで設定を摂動してデータリークを抑えたと説明している。
- まずQwen2.5-Instructの3B、7B、14Bを1,000サンプルでSFT warm-upし、その後GRPOでRL学習する。SFTは1 epoch、batch size 32、学習率1e-4。RLはbatch size 128、学習率1e-5、temperature 0.6、KL係数1e-3。
- 比較対象はQwen2.5/Qwen3/Llama系のOSSモデル、SFT版、GPT-3.5、GPT-4o、GPT-4o-V、GPT-4.1-mini、GPT-4.1、o4-miniなど。
- 報酬は、形式が正しければ0.1、アクション種別とパラメータが正しければ1、種別だけ正しければ0.1、余計なトークンが</action>後に出たら-0.9という設計。

主な結果

WorkForceAgent-R1は、同じサイズのSFTベースラインをかなり上回っています。全体success rateは、3Bで26.59から36.85へ、7Bで27.32から39.56へ、14Bで30.20から46.79へ伸びています。差分はそれぞれ+10.26、+12.24、+16.59ポイントです。単なるSFTより、RLで「次の一手」を報酬に合わせて磨く効果が出ています。

商用モデルとの比較でも、14B版はGPT-4oの42.65、GPT-4.1-miniの43.27を上回り、GPT-4.1の48.19に近いところまで来ています。ただしo4-miniは55.78で、ここにはまだ届いていません。カテゴリ別に見るとserviceでは14B版が89.81、menuで75.00と強い一方、dashboardは20.00、filterは25.17で、万能というより得意不得意がはっきり残っています。

追加実験では、GRPOがPPOより良く、Qwen2.5-7Bベースで39.56対36.08でした。また、いきなりInstructモデルからRLするより、少量SFTでwarm-upしてからGRPOする方が良い結果でした。報酬設計では、テキスト類似度で細かく部分点を与えるdense rewardより、形式と正解アクションをシンプルに見るsparse rewardの方が安定したそうです。dense rewardでは、よく出るclick操作を繰り返すような報酬ハックが起きています。

ポイント

この論文の良さは、Webエージェントの「推論力」をかなり現実的な形で扱っているところです。Web操作では、次のページを見ないと分からないことが多いので、何手も先まできれいに計画するより、現在の画面を読んで次の一手を外さない方が効く場面は多いです。業務UIだと特にそうです。地味ですが、実務に近い割り切りだと思います。

一方で、評価はWorkArena中心です。論文自身も認めている通り、一般のWebブラウジングやもっと雑多なサイトにそのまま広がるかは分かりません。報酬もground-truth actionとのexact matchを使っているので、「別の操作でも目的は達成できる」ケースをどこまで扱えるかは気になります。

それでも、OSSの14BクラスでGPT-4o付近まで持っていけるという結果は、社内Web自動化をローカル寄りにやりたい組織にはかなり刺さるはずです。プライバシーやコストの理由で商用APIを使いにくい場面では、こういうRL後処理の価値が出てきます。

要約: WorkForceAgent-R1は、企業向けWeb操作エージェントをルールベース報酬のGRPOで鍛え、SFTだけでは弱い「画面を読んで次の一手を選ぶ力」をかなり改善した論文です。

Untitled

WorkForceAgent-R1: Incentivizing Reasoning Capability in LLM-based Web Agents via Reinforcement Learning 著者: Yuchen Zhuang, Di Jin, Jiaao Chen, Wenqi Shi, Hanrui Wang, Chao Zhang 会議: Findings of the Association for Computational Linguistics: EACL 2026 URL: https://aclanthology.org/2026.findings-eacl.3/

どんな論文か

企業向けのWeb画面を操作するLLMエージェントを、教師ありファインチューニングだけでなく強化学習で鍛える論文です。対象は、フォーム入力、ナレッジベース検索、サービスカタログでの注文など、いかにも社内業務で出てくるブラウザ操作です。こういう画面はHTMLが長く、要素IDも安定せず、UIも親切とは限らないので、単に「次に押すボタン」を真似るだけだと崩れやすい、という問題意識です。

提案手法のWorkForceAgent-R1は、Web操作をマルチステップ全体で一気に考えさせるのではなく、各ステップで現在の観測と過去の操作を見て、短い推論と次のアクションを出す形に分解します。出力は<think>...</think>と<action>...</action>で構造化し、正しい形式で出せたか、アクション種別やパラメータが正しいかを報酬にします。

面白いのは、長い推論データを大量に人手で作る方向ではなく、ルールベースの報酬で「それっぽい中間推論」を育てようとしているところです。GRPOを使い、候補アクション同士を比べながら、正しい操作に寄せていきます。

何を調べたか

評価ベンチマークはWorkArena。職場系Webタスク33種類を含み、カテゴリはdashboard、form、knowledge base、filter、sort、menu、serviceの7つ。
主指標はsuccess rate。全体スコアは各カテゴリの成功率をタスク数で重み付けしたもの。
学習データはBrowserGym環境とWorkArenaの設定から作成。各タスク10設定、合計330設定を学習用に確保し、o3-miniで設定を摂動してデータリークを抑えたと説明している。
まずQwen2.5-Instructの3B、7B、14Bを1,000サンプルでSFT warm-upし、その後GRPOでRL学習する。SFTは1 epoch、batch size 32、学習率1e-4。RLはbatch size 128、学習率1e-5、temperature 0.6、KL係数1e-3。
比較対象はQwen2.5/Qwen3/Llama系のOSSモデル、SFT版、GPT-3.5、GPT-4o、GPT-4o-V、GPT-4.1-mini、GPT-4.1、o4-miniなど。
報酬は、形式が正しければ0.1、アクション種別とパラメータが正しければ1、種別だけ正しければ0.1、余計なトークンが</action>後に出たら-0.9という設計。

主な結果

WorkForceAgent-R1は、同じサイズのSFTベースラインをかなり上回っています。全体success rateは、3Bで26.59から36.85へ、7Bで27.32から39.56へ、14Bで30.20から46.79へ伸びています。差分はそれぞれ+10.26、+12.24、+16.59ポイントです。単なるSFTより、RLで「次の一手」を報酬に合わせて磨く効果が出ています。

商用モデルとの比較でも、14B版はGPT-4oの42.65、GPT-4.1-miniの43.27を上回り、GPT-4.1の48.19に近いところまで来ています。ただしo4-miniは55.78で、ここにはまだ届いていません。カテゴリ別に見るとserviceでは14B版が89.81、menuで75.00と強い一方、dashboardは20.00、filterは25.17で、万能というより得意不得意がはっきり残っています。

追加実験では、GRPOがPPOより良く、Qwen2.5-7Bベースで39.56対36.08でした。また、いきなりInstructモデルからRLするより、少量SFTでwarm-upしてからGRPOする方が良い結果でした。報酬設計では、テキスト類似度で細かく部分点を与えるdense rewardより、形式と正解アクションをシンプルに見るsparse rewardの方が安定したそうです。dense rewardでは、よく出るclick操作を繰り返すような報酬ハックが起きています。

ポイント

この論文の良さは、Webエージェントの「推論力」をかなり現実的な形で扱っているところです。Web操作では、次のページを見ないと分からないことが多いので、何手も先まできれいに計画するより、現在の画面を読んで次の一手を外さない方が効く場面は多いです。業務UIだと特にそうです。地味ですが、実務に近い割り切りだと思います。

一方で、評価はWorkArena中心です。論文自身も認めている通り、一般のWebブラウジングやもっと雑多なサイトにそのまま広がるかは分かりません。報酬もground-truth actionとのexact matchを使っているので、「別の操作でも目的は達成できる」ケースをどこまで扱えるかは気になります。

それでも、OSSの14BクラスでGPT-4o付近まで持っていけるという結果は、社内Web自動化をローカル寄りにやりたい組織にはかなり刺さるはずです。プライバシーやコストの理由で商用APIを使いにくい場面では、こういうRL後処理の価値が出てきます。

要約: WorkForceAgent-R1は、企業向けWeb操作エージェントをルールベース報酬のGRPOで鍛え、SFTだけでは弱い「画面を読んで次の一手を選ぶ力」をかなり改善した論文です。