Textagon: Boosting Language Models with Theory-guided Parallel Representations

生成日:

Textagon: Boosting Language Models with Theory-guided Parallel Representations

Abstract(日本語訳)

事前学習済み言語モデルは、テキストの分散表現を生成する技術水準を大きく前進させてきた。しかし、それらは、言語知識やドメイン知識を明示的に符号化した、専門家作成の言語資源やレキシコンが多様に存在することを考慮していない。このようなレキシコンは、学習された埋め込みと組み合わせることで、NLP における予測や言語学的な調査をさらに高めることができる。本研究では、事前定義されたレキシコンに基づいてテキストの並列表現を生成し、最も多くの情報を与える表現を選択するための Python パッケージ Textagon を提示する。本稿では、このソフトウェアの動機、実装、および利用時の実用性を示す二つのケーススタディについて述べる。

論文の面白いところ

この論文の焦点は、巨大な言語モデルをさらに大きくすることではなく、古くから使われてきたレキシコンや言語理論を、現在の分類器に差し込める形に整える点にある。BERT などの pretrained language model(PLM)は、語や文の意味的な近さを高次元の埋め込みとして扱うが、LIWC、感情語彙、品詞、固有表現、医療副作用語彙のような、人間が設計した分類軸をそのまま読むわけではない。Textagon は、入力文の各トークンに対して複数のレキシコン上のタグを並べ、トークンとレキシコンからなる行列として扱う。これにより、もとの単語列だけでは見えにくい感情、語用論、文体、トピック、語義の情報を、分類や内容分析に使える。特に計算社会科学では、分類精度だけでなく、どの種類の言語的手がかりが差を生んだかを説明する必要がある。Textagon はこの要求に合っており、モデル改善の道具であると同時に、分析対象のテキストを観察する道具でもある。論文はデモ論文であり、単一の新しいニューラルアーキテクチャを主張するというより、既存の資源を再利用するための実装と評価を示している。

問題設定

多くの NLP タスクでは、PLM をそのままファインチューニングする方法が標準的である。しかし、社会科学や医療、災害対応のような領域では、十分なラベル付きデータがない場合が多い。ラベルが少ないと、PLM の性能は不安定になり、分類誤りが後段の統計分析にも影響する。さらに、研究分野によっては、LIWC のような既存の言語資源や、特定の心理・語用論的分類を使うことが慣行として求められることがある。通常の分類器なら、入力文をトークン化し、その埋め込みをモデルに渡してラベルを予測する。だがこの流れでは、たとえば「不安を表す語が多い」「一度しか出ない語が多い」「発話行為として依頼が多い」といった情報を、明示的な特徴として扱いにくい。論文は、この欠けている部分を、複数のレキシコンに基づく並列表現として補う問題を扱う。

提案手法

Textagon は、入力テキストから複数の token-level representation を生成する。基本となる Word 表現に加え、hypernym、named entity recognition(NER)、adverse drug reaction(ADR)語彙、感情・情動語彙、LIWC、品詞、スペルミス、hapax legomenon(一度だけ現れる語)、語義、単語と品詞の組などを並列に作る。各表現はトークン位置に沿ってそろえられるため、同じ単語が、ある行では品詞、別の行では感情カテゴリ、さらに別の行では語義ラベルとして見られる。論文では、この構造を token-lexicon feature matrix として説明している。全ての表現を使うと冗長な情報も増えるため、Textagon は tokenized Grid-Based Subsumption(tGBS)を用いて、どの表現がデータに対して情報を多く持つかを評価する。各表現について、一定以上の tGBS 重みを持つトークンの割合をスコアとし、表現を順位づける。その後、選ばれた表現は単独の特徴として使うことも、PLM の埋め込みと連結して分類器へ渡すこともできる。実装は PyPI と GitHub で公開されており、カスタムレキシコンの追加も想定されている。

結果

評価は三つの観点から行われている。第一に、人間が書いたエッセイと GPT が生成したエッセイを対象に、並列表現の構成がどのように異なるかを調べている。人間と GPT の差は、同じ人間集団内の年齢や民族カテゴリによる差より大きく、健康フォーラムにおける年齢・性別差に近い程度の違いとして現れた。BERT の attention が強く向くトークンを調べる分析では、人間の文章では感情・心理過程・文体や構文に関する情報が多く、GPT 由来の文章では語用論的な次元が相対的に多いと報告されている。第二に、Textagon が生成する 20 種類の表現は、ベースの単語表現と比べて、データセットに応じて 4 倍から 7 倍程度の追加情報を持つとされる。第三に、13 のテストベッドで PLM 分類器に Textagon の特徴を加え、AUC を比較している。BERT と RoBERTa では多くの場合 1% から 5% の改善が見られ、DistilBERT のような小型モデルでは改善幅がより目立つ。全体では 52 のタスク・モデル設定のうち 46 設定、すなわち 88.5% で性能が改善した。ただし、効果はレキシコンの品質と適合性に依存し、大規模データでの表現生成と選択には計算コストがかかる。

具体例

たとえば、薬のレビュー文として「頭痛がひどく、血圧もまだ低めだった」という入力があるとする。通常の PLM 分類器は、この文をトークン化し、それぞれのトークンを埋め込みに変換して、副作用の有無や感情ラベルを予測する。Textagon を使う場合、同じ文に対して、headache に副作用反応を示すタグを付け、low に感情や語義のタグを付け、bp のような略語には固有表現認識の結果を付ける。さらに、品詞や LIWC のカテゴリも同じトークン位置に沿って追加される。モデルは、もとの単語列に加えて、医療副作用語彙や感情語彙に由来する手がかりを受け取る。期待される出力は、たとえば「副作用を述べた文である」または「否定的な薬剤経験である」という分類である。間違えやすい点は、低い血圧が単なる状態説明なのか、薬に起因する副作用なのかを文脈なしに判定しにくいところにある。Textagon はこの判断を完全に解くわけではないが、少なくとも分類器に対して、どの語が医療的・感情的に意味を持ちうるかを明示する。