ExPerT: Effective and Explainable Evaluation of Personalized Long-Form Text Generation

生成日: 2026-05-24 02:20

# ExPerT: Effective and Explainable Evaluation of Personalized Long-Form Text Generation

- 個人化された長文生成の評価では、内容の一致だけでなく、利用者ごとの書き方や関心の反映も問われる。本論文は、その評価を参照文ありの設定で扱う。
- ExPerT は、生成文と参照文を atomic aspect と evidence に分解し、対応する観点を照合したうえで、内容と文体の一致を判定する評価フレームワークである。
- LongLaMP ベンチマークでの人手評価との一致率は 0.74 で、GEMBA や G-Eval などの既存指標を上回った。説明の有用性も 5 段階で平均 4.7 と評価された。

## Abstract（日本語訳）

大規模言語モデル（LLM）が生成した個人化テキストを評価することは難しい。出力を信頼して評価できるのは LLM の利用者、すなわちプロンプトの作成者だけである一方、研究をまたいで同じ個人に再び参加してもらうことは現実的ではないためである。本論文は、説明可能な参照文ベースの評価フレームワークである ExPerT を導入し、個人化テキスト生成の評価という課題に取り組む。ExPerT は LLM を用いて、生成文と参照文から atomic aspect とその evidence を抽出し、aspect を対応付け、個人化テキスト生成における二つの主要な属性である内容と文体に基づいて両者のアラインメントを評価する。さらに ExPerT は、評価過程の各段階について詳細で細粒度の説明を生成し、透明性と解釈可能性を高める。実験では、ExPerT が最先端のテキスト生成評価手法と比べ、人間の判断とのアラインメントで相対 7.2% の改善を達成した。また、人間の評価者は ExPerT の説明の有用性を 5 点満点中 4.7 点と評価し、評価判断をより解釈しやすくするうえでの有効性が示された。

## 論文の面白いところ

この論文の主眼は、LLM を「評価者」として使うときの弱点を、単に別のプロンプトで覆うのではなく、評価対象の文章を細かい単位に分けて扱う点にある。長文の個人化生成では、語の重なりだけでは不十分であり、意味が合っていても本人らしい書き方から外れることがある。反対に、文体だけ似ていて内容が抜け落ちている場合もある。ExPerT はこの二つを分け、さらに recall と precision の形で「参照文にある観点をどれだけ拾ったか」と「余計な観点をどれだけ混ぜたか」を見る。これは、通常の ROUGE や BLEU が苦手とする長文のずれを、かなり読者に見える形へ戻す設計である。

もう一つ重要なのは、評価結果に説明が付くことである。GEMBA や G-Eval のような LLM ベースの評価は、点数だけを見ると便利であるが、なぜその点数になったかが曖昧になりやすい。本論文は、観点抽出、観点照合、内容一致、文体一致の各段階で根拠を出させる。人間の評価者がその説明だけを見て、ExPerT が高く評価した出力を 94% の事例で選べたという結果は、この説明が単なる飾りではないことを示している。ただし、説明も LLM が生成するため、完全な保証ではない。評価を監査しやすくするための実用的な中間表現として読むのがよい。

## 問題設定

対象は、利用者の過去の文章や嗜好に合わせて長文を生成する個人化テキスト生成である。例として、ある利用者向けの商品レビュー、技術記事の abstract、Reddit 投稿のような長い文章がある。この種の生成では、正解は一つに定まりにくいが、ベンチマークでは利用者本人が書いた参照文を置くことができる。そこで本論文は、生成文がその参照文にどれだけ近いかを測る参照文ベースの評価を扱う。

既存の n-gram 指標は、言い換えや長文の構成差に弱い。BERTScore のような埋め込みベースの指標は意味的な近さを拾えるが、個人の文体や関心の違いまでは十分に扱いにくい。LLM に直接点数を付けさせる方法もあるが、出力順序に左右されたり、文章末尾に「これは完全に正しい」といった文を足すだけで点数が上がったりする。論文では、Gemma 2 27B を用いた予備実験で、ペアワイズ評価の出力順を変えると 88% の事例で判断が変わったと報告している。また、単純な自己主張文を足すだけで平均 12.9% 点数が上がる例も示している。したがって、必要なのは、点数だけでなく、どの内容とどの文体が一致したのかを分解して示す評価である。

## 提案手法

ExPerT は、生成文と参照文を比較する前に、それぞれを atomic aspect と evidence に分ける。atomic aspect は文章中の独立した観点であり、evidence はその観点を支える文や句である。たとえば商品レビューなら、「配送は早かった」「質感は価格相応だった」「説明書が分かりにくい」といったまとまりが aspect になり、それを述べている具体的な文が evidence になる。抽出には instruction-tuned LLM を用い、論文の標準設定では Gemma 2 27B が使われる。

次に、参照文側の aspect と生成文側の aspect を対応付ける。単純に全組み合わせを調べると aspect 数の積に比例して高くつくため、ExPerT は一つの aspect に対し、相手側の全 aspect から最も近いものを一度の LLM 呼び出しで選ばせる。対応がなければ none とする。この設計により、計算量は概ね aspect 数の和に比例する形になる。対応した aspect については、evidence の内容が合っているか、書き方が合っているかを別々に判定する。最後に、参照文側から見た recall、生成文側から見た precision を求め、その調和平均を ExPerT のスコアとする。内容と文体の集約には複数の方法があり、実験では content/style average が最もよい結果を示した。

## 結果

実験には LongLaMP ベンチマークを用いる。対象タスクは Personalized Abstract Generation、Personalized Topic Writing、Personalized Review Writing の三つであり、メール生成はプライバシー上の理由から除外されている。個人化生成モデルとしては、利用者プロファイルから関連情報を検索してプロンプトに加える Personalized RAG を使い、Gemma 2B と GPT-4o-mini を用いた生成を評価している。評価指標の比較では、METEOR と BLEU が 0.47、ROUGE-L が 0.50、BERTScore が 0.59、人間判断との一致率を示した。LLM ベースの GEMBA と G-Eval はともに 0.69 であり、ExPerT の content/style average は 0.74 で最も高かった。

内容と文体の扱いでは、文体だけを見る方法は 0.62 と低く、内容だけを見る方法は 0.71 だった。内容と文体を平均する方法が 0.74 で、個人化生成では両方を見る必要があることが示される。モデルサイズの比較では、大きいモデルほど人間判断との一致が高い傾向があり、Gemma 27B と GPT-4o は同じ 0.74 に達した。単純な攻撃文を追加する実験では、GEMBA は最大 24.3% の相対的な点数上昇を示した一方、ExPerT は最大で 43.2% の低下を示し、不自然な追記を罰しやすかった。説明可能性の評価では、評価者が ExPerT の説明を使って高評価側を 94% の事例で識別できた。LLM 呼び出し回数は平均 18.6 回で、20 回を要した G-Eval よりわずかに少ないが、GEMBA の 1 回よりは重い。したがって ExPerT は、安価な単一点評価ではなく、説明と頑健性を得るために一定の計算費用を払う方式である。

## 具体例

ある利用者が、ワイヤレスイヤホンについて 4 点のレビューを書く場面を考える。入力には商品の説明と評価点があり、参照文にはその利用者が実際に書いたレビューとして、「低音は控えめだが通勤中のポッドキャストには十分で、ケースが軽い点を気に入った。ただしタッチ操作は反応が鋭すぎる」といった内容がある。生成モデルは、利用者の過去レビューを検索し、この利用者が短い段落で実用面を中心に書く傾向を反映してレビューを作る。ExPerT はまず、参照文と生成文から「音質への評価」「携帯性」「操作性への不満」のような aspect を取り出し、それぞれを支える文を evidence として結び付ける。

生成文が「音質は最高で、音楽鑑賞に没入できる」と書いた場合、同じ音質の aspect には対応するが、参照文の「ポッドキャストには十分」という控えめな評価とは内容がずれる。生成文が「ケースが軽く、毎日持ち歩きやすい」と書けば、携帯性の aspect は内容も文体も近いと判定される可能性が高い。もし生成文が、参照文にない「ノイズキャンセリングが業界最高」といった話を足せば、precision 側で余計な aspect として扱われる。逆に、参照文にあるタッチ操作への不満を落とせば、recall 側で不足として現れる。このように ExPerT は、総合点だけでなく、どの観点が合い、どこが本人の文から離れたかを示す。個人化生成の失敗はしばしば細部に出るため、この分解は実験の比較だけでなく、生成モデルの改善箇所を探す用途にも向く。

ExPerT: Effective and Explainable Evaluation of Personalized Long-Form Text Generation

個人化された長文生成の評価では、内容の一致だけでなく、利用者ごとの書き方や関心の反映も問われる。本論文は、その評価を参照文ありの設定で扱う。
ExPerT は、生成文と参照文を atomic aspect と evidence に分解し、対応する観点を照合したうえで、内容と文体の一致を判定する評価フレームワークである。
LongLaMP ベンチマークでの人手評価との一致率は 0.74 で、GEMBA や G-Eval などの既存指標を上回った。説明の有用性も 5 段階で平均 4.7 と評価された。

Abstract（日本語訳）

大規模言語モデル（LLM）が生成した個人化テキストを評価することは難しい。出力を信頼して評価できるのは LLM の利用者、すなわちプロンプトの作成者だけである一方、研究をまたいで同じ個人に再び参加してもらうことは現実的ではないためである。本論文は、説明可能な参照文ベースの評価フレームワークである ExPerT を導入し、個人化テキスト生成の評価という課題に取り組む。ExPerT は LLM を用いて、生成文と参照文から atomic aspect とその evidence を抽出し、aspect を対応付け、個人化テキスト生成における二つの主要な属性である内容と文体に基づいて両者のアラインメントを評価する。さらに ExPerT は、評価過程の各段階について詳細で細粒度の説明を生成し、透明性と解釈可能性を高める。実験では、ExPerT が最先端のテキスト生成評価手法と比べ、人間の判断とのアラインメントで相対 7.2% の改善を達成した。また、人間の評価者は ExPerT の説明の有用性を 5 点満点中 4.7 点と評価し、評価判断をより解釈しやすくするうえでの有効性が示された。

論文の面白いところ

この論文の主眼は、LLM を「評価者」として使うときの弱点を、単に別のプロンプトで覆うのではなく、評価対象の文章を細かい単位に分けて扱う点にある。長文の個人化生成では、語の重なりだけでは不十分であり、意味が合っていても本人らしい書き方から外れることがある。反対に、文体だけ似ていて内容が抜け落ちている場合もある。ExPerT はこの二つを分け、さらに recall と precision の形で「参照文にある観点をどれだけ拾ったか」と「余計な観点をどれだけ混ぜたか」を見る。これは、通常の ROUGE や BLEU が苦手とする長文のずれを、かなり読者に見える形へ戻す設計である。

もう一つ重要なのは、評価結果に説明が付くことである。GEMBA や G-Eval のような LLM ベースの評価は、点数だけを見ると便利であるが、なぜその点数になったかが曖昧になりやすい。本論文は、観点抽出、観点照合、内容一致、文体一致の各段階で根拠を出させる。人間の評価者がその説明だけを見て、ExPerT が高く評価した出力を 94% の事例で選べたという結果は、この説明が単なる飾りではないことを示している。ただし、説明も LLM が生成するため、完全な保証ではない。評価を監査しやすくするための実用的な中間表現として読むのがよい。

問題設定

対象は、利用者の過去の文章や嗜好に合わせて長文を生成する個人化テキスト生成である。例として、ある利用者向けの商品レビュー、技術記事の abstract、Reddit 投稿のような長い文章がある。この種の生成では、正解は一つに定まりにくいが、ベンチマークでは利用者本人が書いた参照文を置くことができる。そこで本論文は、生成文がその参照文にどれだけ近いかを測る参照文ベースの評価を扱う。

既存の n-gram 指標は、言い換えや長文の構成差に弱い。BERTScore のような埋め込みベースの指標は意味的な近さを拾えるが、個人の文体や関心の違いまでは十分に扱いにくい。LLM に直接点数を付けさせる方法もあるが、出力順序に左右されたり、文章末尾に「これは完全に正しい」といった文を足すだけで点数が上がったりする。論文では、Gemma 2 27B を用いた予備実験で、ペアワイズ評価の出力順を変えると 88% の事例で判断が変わったと報告している。また、単純な自己主張文を足すだけで平均 12.9% 点数が上がる例も示している。したがって、必要なのは、点数だけでなく、どの内容とどの文体が一致したのかを分解して示す評価である。

提案手法

ExPerT は、生成文と参照文を比較する前に、それぞれを atomic aspect と evidence に分ける。atomic aspect は文章中の独立した観点であり、evidence はその観点を支える文や句である。たとえば商品レビューなら、「配送は早かった」「質感は価格相応だった」「説明書が分かりにくい」といったまとまりが aspect になり、それを述べている具体的な文が evidence になる。抽出には instruction-tuned LLM を用い、論文の標準設定では Gemma 2 27B が使われる。

次に、参照文側の aspect と生成文側の aspect を対応付ける。単純に全組み合わせを調べると aspect 数の積に比例して高くつくため、ExPerT は一つの aspect に対し、相手側の全 aspect から最も近いものを一度の LLM 呼び出しで選ばせる。対応がなければ none とする。この設計により、計算量は概ね aspect 数の和に比例する形になる。対応した aspect については、evidence の内容が合っているか、書き方が合っているかを別々に判定する。最後に、参照文側から見た recall、生成文側から見た precision を求め、その調和平均を ExPerT のスコアとする。内容と文体の集約には複数の方法があり、実験では content/style average が最もよい結果を示した。

結果

実験には LongLaMP ベンチマークを用いる。対象タスクは Personalized Abstract Generation、Personalized Topic Writing、Personalized Review Writing の三つであり、メール生成はプライバシー上の理由から除外されている。個人化生成モデルとしては、利用者プロファイルから関連情報を検索してプロンプトに加える Personalized RAG を使い、Gemma 2B と GPT-4o-mini を用いた生成を評価している。評価指標の比較では、METEOR と BLEU が 0.47、ROUGE-L が 0.50、BERTScore が 0.59、人間判断との一致率を示した。LLM ベースの GEMBA と G-Eval はともに 0.69 であり、ExPerT の content/style average は 0.74 で最も高かった。

内容と文体の扱いでは、文体だけを見る方法は 0.62 と低く、内容だけを見る方法は 0.71 だった。内容と文体を平均する方法が 0.74 で、個人化生成では両方を見る必要があることが示される。モデルサイズの比較では、大きいモデルほど人間判断との一致が高い傾向があり、Gemma 27B と GPT-4o は同じ 0.74 に達した。単純な攻撃文を追加する実験では、GEMBA は最大 24.3% の相対的な点数上昇を示した一方、ExPerT は最大で 43.2% の低下を示し、不自然な追記を罰しやすかった。説明可能性の評価では、評価者が ExPerT の説明を使って高評価側を 94% の事例で識別できた。LLM 呼び出し回数は平均 18.6 回で、20 回を要した G-Eval よりわずかに少ないが、GEMBA の 1 回よりは重い。したがって ExPerT は、安価な単一点評価ではなく、説明と頑健性を得るために一定の計算費用を払う方式である。

具体例

ある利用者が、ワイヤレスイヤホンについて 4 点のレビューを書く場面を考える。入力には商品の説明と評価点があり、参照文にはその利用者が実際に書いたレビューとして、「低音は控えめだが通勤中のポッドキャストには十分で、ケースが軽い点を気に入った。ただしタッチ操作は反応が鋭すぎる」といった内容がある。生成モデルは、利用者の過去レビューを検索し、この利用者が短い段落で実用面を中心に書く傾向を反映してレビューを作る。ExPerT はまず、参照文と生成文から「音質への評価」「携帯性」「操作性への不満」のような aspect を取り出し、それぞれを支える文を evidence として結び付ける。

生成文が「音質は最高で、音楽鑑賞に没入できる」と書いた場合、同じ音質の aspect には対応するが、参照文の「ポッドキャストには十分」という控えめな評価とは内容がずれる。生成文が「ケースが軽く、毎日持ち歩きやすい」と書けば、携帯性の aspect は内容も文体も近いと判定される可能性が高い。もし生成文が、参照文にない「ノイズキャンセリングが業界最高」といった話を足せば、precision 側で余計な aspect として扱われる。逆に、参照文にあるタッチ操作への不満を落とせば、recall 側で不足として現れる。このように ExPerT は、総合点だけでなく、どの観点が合い、どこが本人の文から離れたかを示す。個人化生成の失敗はしばしば細部に出るため、この分解は実験の比較だけでなく、生成モデルの改善箇所を探す用途にも向く。