Untitled
title: "OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis" source_url: "https://aclanthology.org/2025.acl-long.277/" doi: "10.18653/v1/2025.acl-long.277" generated_at: "2026-05-09T01:06:28+00:00"
- GUI エージェントを訓練するための操作軌跡を、人手のタスク設計からではなく、環境探索から作る方法を提案する。
- 画面遷移と操作の組から低水準の指示を作り、そこから高水準のタスクを逆向きに合成する点に特徴がある。
- AndroidWorld、AndroidControl、WebArena で、通常のタスク駆動型合成より高い成功率を示した。
論文の面白いところ
この論文の主眼は、GUI エージェント用データの作り方を反対向きにすることにある。従来は「この商品を探せ」「この予定を登録せよ」といったタスクを先に与え、それを人間またはモデルが実行して軌跡を集めることが多かった。OS-Genesis は、まずアプリやウェブページ上のボタン、入力欄、スクロール可能な領域を動かし、何が起こるかを観察する。そこで得た「前の画面、操作、後の画面」の組から、その操作に対応する小さな指示を作り、さらにそれを含む自然な利用目的を後から作る。人間が未知のアプリを触りながら機能を見つける過程に近い。未完成の軌跡もただ捨てず、軌跡報酬モデルで 1 から 5 の点を付けて訓練時のサンプリングに使う。このため、成功例だけを集める方法よりも、画面上の細かな機能を拾いやすい設計になっている。
問題設定
対象は、スクリーンショットやアクセシビリティツリーを読み、クリック、入力、スクロールなどの操作を選ぶ GUI エージェントである。この種のエージェントには、ユーザーの大まかな目的を理解し、現在の画面を見て次の細かな手順を決め、実際の操作に落とす能力が要る。訓練には、高水準の指示、各時点の低水準の指示、画面状態、操作列をそろえた軌跡データが望ましい。しかし、人手で軌跡を作ると費用がかかり、対象アプリやウェブサイトも限られる。モデルでタスクを作って実行させる方法は安価だが、最初に与えるタスク集合に強く依存し、存在しない機能や実行困難な目標を含むことがある。GUI は実行時の状態に左右されるため、事前に書いたタスクが現在の画面と合わない場合もある。著者らは、このずれをデータ構築上の主要な制約として扱う。
提案手法
OS-Genesis は、相互作用による機能発見、逆方向のタスク合成、軌跡報酬モデルの三段から成る。第一段階では、Android エミュレータや Chrome ブラウザ上で、ルールに基づきクリック、入力、スクロールなどを行い、操作前後の画面と操作を記録する。入力欄に何を入れるかが必要な場合には、GPT-4o を用いて文脈に合った内容を生成する。第二段階では、記録した三つ組から GPT-4o が低水準の指示を作る。たとえば、あるクリックでドロップダウンが開いたなら、「選択肢を表示するためにドロップダウンをクリックする」といった指示になる。さらに、その低水準の操作を含みうる高水準のタスクを作ることで、環境に根ざした指示集合を得る。第三段階では、合成された高水準タスクをモデルに実行させ、得られた軌跡を軌跡報酬モデルで採点し、完了度と一貫性の高いものが訓練で選ばれやすくなるようにする。
結果
主な評価は、AndroidWorld、AndroidControl、WebArena で行われた。AndroidWorld では、Qwen2-VL-7B に OS-Genesis の 1,000 軌跡を用いて訓練した場合、成功率は 17.41% であり、Task-Driven w. Self Instruct の 9.82% を上回った。InternVL2-4B でも 15.18%、InternVL2-8B でも 16.96% となり、同じ系統のタスク駆動型データより高かった。AndroidControl では、高水準指示と低水準指示の双方で、成功率または操作種別一致率が概して改善した。WebArena でも、Qwen2-VL-7B の全体成功率は 10.79% で、Task-Driven の 7.05%、Self-Instruct の 5.39% を上回った。データ多様性の分析では、OS-Genesis の指示と軌跡は、合成データの中で平均コサイン距離が大きく、より広い操作を含む傾向が示された。軌跡報酬モデルは人間評価とも高い相関を示し、モバイルで Spearman 0.813、ウェブで 0.798 が報告されている。
具体例
たとえば、レシピアプリで「Avocado Toast with Egg をお気に入りに登録する」という操作を考える。通常のタスク駆動型の作り方では、この高水準指示を最初から用意し、モデルや作業者が対象のレシピを探して登録する。OS-Genesis では、まずアプリ内のレシピ名をクリックして詳細画面が開く、星形のボタンを押すとお気に入り状態に変わる、といった画面遷移を観察する。次に、「Avocado Toast with Egg をクリックして詳細を見る」「お気に入りボタンをクリックする」という低水準指示を、操作前後の画面から作る。その後、これらの手順を含む高水準タスクとして、「Broccoli アプリで Avocado Toast with Egg のレシピをお気に入りに登録する」という指示を構成する。実行時の出力は、各画面に対する次の行動であり、たとえば CLICK と座標、または対象要素を指す形式になる。間違えやすい点は、似た名前のレシピを選ぶこと、詳細画面に入る前にお気に入りボタンを探すこと、登録済みと未登録のアイコン状態を取り違えることである。軌跡報酬モデルは、最後の数画面と手順列を見て、目的が完了したか、余計な移動が多すぎないかを評価する。
ユーザーメモ
- 発想の勝利