Untitled

生成日: 2026-05-24 02:20

# Untitled
📄 *Active Generalized Category Discovery with Diverse LLM Feedback*  
Henry Peng Zou et al. (EACL 2026 Long Papers)  
https://aclanthology.org/2026.eacl-long.358/

少量の既知カテゴリのラベルだけを使って、未ラベルデータの中から既知カテゴリと未知カテゴリの両方を見つける Generalized Category Discovery (GCD) の論文です。従来手法はクラスタリングと対照学習が中心で、紛らわしいサンプルの修正や、見つかったクラスタの意味づけが弱い、という問題がありました。

提案手法 DeLFGCD は、LLM を単なるラベル付け役にせず、3 種類のフィードバック源として使います。曖昧なサンプルに似ている例を選ばせる、クラスタに名前と説明を付けさせる、そして曖昧なサンプルを LLM が選んだカテゴリ説明に対応づける、という流れです。得たフィードバックは近傍対照学習とカテゴリ説明とのアラインメントに使い、推論時は通常のエンコーダと K-Means++ だけで分類します。

実験は BANKING、CLINC、StackOverflow の 3 データセット。既知カテゴリ比率 5%、10%、25%、50% の設定で、GCD、SimGCD、Loop、ALUP などをおおむね上回っています。特に既知カテゴリが少ない条件で効いていて、5% KCR の BANKING では Loop より ACC が 9.38 ポイント高く、StackOverflow でも 3.5 ポイント改善しています。

面白いのは、LLM フィードバックの「質」もかなり見ている点です。素朴に LLM に聞くだけだと精度はそこまで高くないため、既知カテゴリからの in-context 例と信頼度によるフィルタリングを入れています。アブレーションでも、近傍対照学習とクラスタ・インスタンス間の LLM フィードバックを外すと性能が大きく落ちました。

コスト面も現実的です。gpt-4o-mini を使った場合、1 回の実行あたり約 155 万から 588 万トークン、費用は約 $0.25 から $0.91、問い合わせ時間は 15 分以内と報告されています。外部 LLM を使う以上、プライバシー面の注意は残りますが、未知カテゴリ発見を全部人手で直すよりはかなり軽い選択肢に見えます。

一言でいうと、LLM を「答えを出す分類器」ではなく「曖昧なクラスタを整える補助信号」として使った GCD 手法です。LLM 単体で分類させるより、小さめのモデルの表現学習に混ぜ込むほうが筋が良い、という主張が実験でもわりとはっきり出ています。

Untitled

📄 Active Generalized Category Discovery with Diverse LLM Feedback
Henry Peng Zou et al. (EACL 2026 Long Papers)
https://aclanthology.org/2026.eacl-long.358/

少量の既知カテゴリのラベルだけを使って、未ラベルデータの中から既知カテゴリと未知カテゴリの両方を見つける Generalized Category Discovery (GCD) の論文です。従来手法はクラスタリングと対照学習が中心で、紛らわしいサンプルの修正や、見つかったクラスタの意味づけが弱い、という問題がありました。

提案手法 DeLFGCD は、LLM を単なるラベル付け役にせず、3 種類のフィードバック源として使います。曖昧なサンプルに似ている例を選ばせる、クラスタに名前と説明を付けさせる、そして曖昧なサンプルを LLM が選んだカテゴリ説明に対応づける、という流れです。得たフィードバックは近傍対照学習とカテゴリ説明とのアラインメントに使い、推論時は通常のエンコーダと K-Means++ だけで分類します。

実験は BANKING、CLINC、StackOverflow の 3 データセット。既知カテゴリ比率 5%、10%、25%、50% の設定で、GCD、SimGCD、Loop、ALUP などをおおむね上回っています。特に既知カテゴリが少ない条件で効いていて、5% KCR の BANKING では Loop より ACC が 9.38 ポイント高く、StackOverflow でも 3.5 ポイント改善しています。

面白いのは、LLM フィードバックの「質」もかなり見ている点です。素朴に LLM に聞くだけだと精度はそこまで高くないため、既知カテゴリからの in-context 例と信頼度によるフィルタリングを入れています。アブレーションでも、近傍対照学習とクラスタ・インスタンス間の LLM フィードバックを外すと性能が大きく落ちました。

コスト面も現実的です。gpt-4o-mini を使った場合、1 回の実行あたり約 155 万から 588 万トークン、費用は約 $0.25 から $0.91、問い合わせ時間は 15 分以内と報告されています。外部 LLM を使う以上、プライバシー面の注意は残りますが、未知カテゴリ発見を全部人手で直すよりはかなり軽い選択肢に見えます。

一言でいうと、LLM を「答えを出す分類器」ではなく「曖昧なクラスタを整える補助信号」として使った GCD 手法です。LLM 単体で分類させるより、小さめのモデルの表現学習に混ぜ込むほうが筋が良い、という主張が実験でもわりとはっきり出ています。