Regular-pattern-sensitive CRFs for Distant Label Interactions
- 線形連鎖条件付き確率場(linear-chain conditional random fields; CRF)に、正規表現で指定した遠距離のラベル相互作用を組み込む手法である。
- 提案手法は、指定されたラベルパターンを決定性有限オートマトンに変換し、その経路上の補助的な CRF として学習・推論を行う。
- 三つの合成課題では、通常の LSTM+CRF よりも高い完全一致率を示し、とくに個数制約と共起制約では最適戦略にほぼ達した。
論文の面白いところ
この論文の中心は、古典的な構造予測手法を、現在の大規模言語モデル(large language model; LLM)中心の流れの中で改めて位置づけている点にある。著者らは、LLM エンコーダが入力側の文脈をよく表せても、出力ラベル同士の制約を明示的に扱う必要は残ると見る。通常の線形連鎖 CRF は隣り合うラベルの関係を扱えるが、離れた位置にあるラベルの関係は直接には扱えない。たとえば、一つの文書内で EVENT と DATE が共に現れやすい、あるラベルが系列中にちょうど一度だけ現れる、といった制約は局所的ではない。有限状態トランスデューサ(finite-state transducer; FST)はこの種の関係を表しやすいが、一般には正確な推論が難しくなる。そこで本論文は、利用者が正規表現として書いたラベルパターンだけに感度を持つ CRF を作る。これは大きな万能モデルを作るというより、どの構造を見たいかを人が控えめに指定し、その重みをデータから学ばせる方法である。仕組みが比較的解釈しやすく、系列ラベリングの出力側にある知識を素直に入れられる点が読みどころである。
問題設定
系列ラベリングでは、入力系列の各位置に対して品詞、固有表現、状態などのラベルを与える。多くの場合、各ラベルは独立ではなく、系列全体としてもっともらしい並びを作る必要がある。線形連鎖 CRF は、この要請に対して広く用いられてきた方法であり、隣接するラベル間の遷移を確率的に扱う。しかし、そのマルコフ仮定により、離れた位置にあるラベルの直接的な関係は表しにくい。引用範囲の検出、文書全体の固有表現、時系列活動認識、格子状データのラベル付けでは、遠く離れたラベルが互いに制約し合うことがある。LLM や BERT などのエンコーダを使えば入力側の長距離依存は取り込めるが、出力系列そのものの制約は別の問題として残る。FST は出力ラベルの長距離関係を扱える一方で、非決定性を含む一般の場合には最尤ラベル系列の推論が計算困難になる。この論文は、遠距離のラベル構造を扱いながら、CRF の正確な学習と推論をできるだけ保つことを課題としている。
提案手法
提案手法は regular-pattern-sensitive CRF(RPCRF)である。利用者は、出力ラベル列に現れてほしい、または現れにくい可能性のある構造を、正規表現の集合として指定する。たとえば A が一定回数現れる系列、A と B がどこかで共起する系列、ある間隔を置いて A が現れる系列などを、ラベル列上のパターンとして与える。RPCRF は通常の発火ポテンシャルと遷移ポテンシャルに加えて、指定されたパターンがある位置で終わるかどうかに対応するパターンポテンシャルを持つ。このままでは系列全体を見る非局所的な CRF になり、直接の学習・推論は扱いにくい。著者らは各正規パターンを、接尾辞としてそのパターンが成立するかを判定する決定性有限オートマトンに変換し、それらの直積から一つの状態ラベル付きオートマトンを作る。次に、このオートマトンの弧をラベルとする補助的な線形連鎖 CRF を構成する。決定性により、元のラベル列はオートマトン上の一つの経路に対応し、補助 CRF の確率分布は RPCRF の分布と一致する。そのため、前向きアルゴリズムや Viterbi アルゴリズムを用いて、正確なパラメータ推定と最尤推論を行える。ただし、オートマトンの弧数はパターン数に対して最悪指数的に増えるため、扱いやすさは指定するパターン集合に依存する。
結果
実験は三つの合成系列ラベリング課題で行われた。第一の課題は個数制約で、入力の先頭の数字が、出力系列中に A が何個現れるべきかを表す。通常の LSTM+CRF は完全一致率 11.27% で、最適戦略の 76.98% に相当した。LSTM+RPCRF は 14.61% で、最適戦略 14.64% の 99.80% に達した。第二の課題は共起制約で、二つの 1 に対応するラベルが A/B、C/D、E/F のような正しい組で現れる必要がある。ここでは LSTM+CRF が 6.97% であったのに対し、LSTM+RPCRF は 16.60% となり、最適戦略 16.67% にほぼ一致した。第三の課題は 5×5 の盤面に長さ 4 の戦艦を置く設定で、一つの命中位置から船全体を推定する。格子を行方向に直列化し、縦に隣接する A を表す A____A というパターンを与えることで、RPCRF は縦方向の関係を部分的に扱う。完全一致率は LSTM+CRF の 2.50% に対して LSTM+RPCRF は 12.49% で、改善は大きいが最適戦略 31.25% には届かなかった。著者らは、この差を、用いたパターンが A の個数制約を表していないためと説明している。
具体例
固有表現抽出を例にすると、入力文書に「六月三日にベルリンで会議が開かれ、翌日に同じ主催者が声明を出した」という二文があるとする。通常の系列ラベリングでは、各トークンに EVENT、DATE、LOCATION、O などのラベルを付ける。局所的な CRF は「六月三日」の近くに DATE が来やすいことや、「ベルリン」に LOCATION が来やすいことは扱いやすい。しかし、文書内に EVENT があるなら、離れた位置にも DATE が現れやすい、といった文書単位の関係は隣接ラベルだけでは表しにくい。RPCRF では、たとえば EVENT と DATE が同じ系列内に現れるパターンを正規表現で指定しておく。手法はそのパターンを満たす経路をオートマトン上で追跡し、訓練データから、その共起がどの程度ラベル予測に役立つかを学ぶ。期待される出力は、「会議」を EVENT、「六月三日」や「翌日」を DATE、「ベルリン」を LOCATION とするような一貫したラベル列である。間違えやすい点は、入力エンコーダが各語の意味をよく捉えていても、出力ラベルの組合せとして不自然な系列を選ぶ場合があることである。RPCRF は、その不自然さをあらかじめ書いたラベルパターンを通じて抑える役割を持つ。