LexCLiPR: Cross-Lingual Paragraph Retrieval from Legal Judgments

生成日:

LexCLiPR: Cross-Lingual Paragraph Retrieval from Legal Judgments

論文の面白いところ

この論文の中心は、法律検索を「事件全体の検索」から「判決中の段落検索」へ細かくした点にある。法律実務では、判例そのものを見つけるだけでなく、ある論点について裁判所がどの段落で述べているかを知る必要がある。さらに、利用者の問い合わせ言語と判決本文の言語が一致しない場合も多い。LexCLiPR はこの二つを合わせ、非英語の法律概念から英語判決中の関連段落を探す設定を置いた。データは人手で一から付けたものではなく、ECtHR の登録部が作成した多言語の case-law guide と、そこに含まれる段落番号つき引用を利用して作られる。これは遠隔教師ありの設計であり、法分野では比較的自然な根拠を使っている。論文の結果も、単に大きな多言語モデルを使えば済むという話にはならない。英語へ翻訳してから単言語検索を行う方法、原言語のまま多言語検索を行う方法、Siamese 型と two-tower 型の違いが、条件によってかなり異なる振る舞いを示す。

問題設定

課題は、法律概念を表す問い合わせと一つの判決文が与えられたとき、その判決中で問い合わせに関係する段落を選ぶことである。判決文は段落番号を持つ多数の段落からなり、平均では一判決あたり約 122 段落を含む。各問い合わせと判決の組に対して、関連段落は全体の平均約 2.36% にすぎないため、検索器は少数の根拠段落を広い文書中から拾い上げる必要がある。LexCLiPR では、問い合わせは七言語で作られ、対象となる ECtHR 判決は英語に限定される。したがって、これは横断言語情報検索(Cross-Lingual Information Retrieval; CLIR)の設定である。著者らは、訓練時に見た法律概念を別の判決に適用する seen split と、訓練時に見ていない法律概念を扱う unseen split を分けている。この分割は、単なる文書違いの評価ではなく、新しい論点や法概念に検索器がどの程度対応できるかを見るためのものである。評価指標には Recall@k% を用い、判決ごとの段落数の違いを吸収するため、上位 k 個ではなく上位 k% に含まれる関連段落の割合を測る。

提案手法

提案の第一の要素は、LexCLiPR データセットの構築である。著者らは、ECtHR の Knowledge Sharing Platform にある case-law guide から目次階層を取り出し、たとえば「Terrorism」から下位概念へ至る経路を連結して問い合わせを作る。次に、その概念説明中で引用されている ECtHR 判決の段落番号を集め、該当する段落を関連段落としてラベル付けする。判決本文は HUDOC 由来の英語判決集合を用い、段落番号をもとに分割される。得られたデータは 27,718 個の問い合わせ・判決組と 7,313 個の一意な問い合わせを含む。検索手法としては、BM25、BERT、Dense Passage Retrieval(DPR)、multilingual BERT(mBERT)、multilingual DPR(mDPR)、multilingual Legal BERT(mLegalBERT)を比較する。非英語問い合わせについては、原言語のまま使う場合と、No Language Left Behind(NLLB)で英語に翻訳して使う場合を調べる。密検索器では、問い合わせと段落を同じエンコーダで表す Siamese 型と、別々のエンコーダで表す two-tower 型を比べ、同じ判決中の非関連段落を負例として学習する。

結果

ゼロショット実験では、検索用データで事後学習された mDPR が、一般的な mBERT や法律コーパスで継続事前学習された mLegalBERT より概して良い成績を示した。seen split の Recall@5% の平均では、原言語問い合わせの mBERT が 17.72、mLegalBERT が 19.30、mDPR が 22.56 である。問い合わせを英語に翻訳すると、多くの多言語モデルで成績が上がり、mDPR は平均 25.33 となる。単言語の DPR は翻訳問い合わせで平均 26.40 を示し、多言語モデルを上回った。これは、多言語対応の広さと一言語内の表現の深さの間に実用上の差があることを示す。ファインチューニング後は、seen split で成績が大きく上がり、たとえば mDPR を原言語問い合わせで学習・評価した条件では平均 45.62 に達した。一方、unseen split では成績が下がり、未知の法律概念への汎化が難しいことが残った。論文は、横断言語検索では two-tower 型が有利な場面が多く、翻訳を用いた単言語的な設定では Siamese 型も強い、と慎重にまとめている。

具体例

たとえば、トルコ語の利用者が「テロ対策における国家職員の訓練と選任」という趣旨の法律概念を問い合わせとして入力するとする。LexCLiPR の設定では、この問い合わせは case-law guide の階層から作られた概念列に近く、検索対象は英語で書かれた一つの ECtHR 判決である。検索器は判決を段落単位に分け、各段落がその概念とどの程度近いかを点数化する。期待される出力は、警察官や治安部隊の選任、訓練、監督、致死的武力行使の管理について裁判所が述べた段落である。単純な語一致では、問い合わせがトルコ語で判決が英語なので、同じ単語を探すだけではほとんど役に立たない。問い合わせを英語に翻訳すれば BM25 や DPR を使いやすくなるが、法律用語の訳がずれると、関連する段落を取り逃がす。多言語密検索器は原言語のまま扱えるが、低資源言語や専門的な概念では意味空間の対応が不十分になることがある。このため、この論文の評価では、翻訳、検索用事後学習、エンコーダ構成の違いが実際の検索精度に反映される。