PAP2PAT: Benchmarking Outline-Guided Long-Text Patent Generation with Patent-Paper Pairs
- 特許明細書の自動生成を、研究論文と特許出願が同じ発明を記述する patent-paper pair から扱うベンチマークである。
- PAP2PAT は 1,813 組のペアと複数粒度のアウトラインを備え、論文を発明仕様、アウトラインを弁理士の構成指示とみなす。
- 提案手法 COPGEN はアウトラインを小さく分け、各部分に関連する論文段落を BM25 で取り出して長い特許記述を生成する。
- 実験では、長さと被覆率は改善するが、細部の不足、特許らしい非限定的表現、ファインチューニング時の hallucination と反復が課題として残る。
Abstract(日本語訳)
長く、非常に複雑な技術文書を扱うことは、大規模言語モデル(LLM)にとって課題である。特許作成のように高価で時間を要する過程を支援するうえで、LLM の可能性はまだ十分に発揮されていない。特許では、明細書の説明部分が平均して文書の 90% 以上を占める。それにもかかわらず、その自動生成は十分に研究されていない。特許出願を作成するとき、弁理士は通常、発明報告書(IR)を受け取るが、これは多くの場合機密であり、LLM による特許作成支援の研究を妨げている。しばしば、公開前の研究論文が IR として用いられる。われわれはこの二重性を利用し、同じ発明を記述する 1.8k 件の特許・論文ペアからなる、特許作成のためのオープンで現実的なベンチマーク PAP2PAT を構築した。複雑な長文特許生成タスクに対処するため、研究論文を発明の技術仕様として用いる、チャンクベースのアウトライン誘導生成を提案する。PAP2PAT を用いた広範な評価と人手によるケーススタディは、LLM が論文中の情報を有効に利用できる一方で、必要な詳細度を与えることにはなお苦労することを示している。ファインチューニングは、より特許らしい文体をもたらすが、同時に hallucination も増加させる。われわれはデータとコードを公開する。
論文の面白いところ
この論文の眼目は、特許生成を抽象的な作文課題ではなく、実務に近い入力と出力の組として定義した点にある。特許出願では、発明者や研究者の資料をもとに、弁理士が法的な範囲を意識した文書へ書き換える。ところが実際の発明報告書は公開されにくく、研究用データにしにくい。著者らは、研究機関では公開前の論文が発明報告書の役割を持つことがある、という実務上の事情を利用する。同じ発明について書かれた論文と特許を対応づければ、論文を入力、特許明細書を出力とする自然なタスクを作れる。
PAP2PAT はこの考えを 1,813 組の patent-paper pair としてまとめたデータセットである。特許文書は請求項だけではなく、発明の背景、要約、実施形態などを含む長い説明部分を持つ。論文中の情報をそのまま言い換えれば足りるわけではなく、利用場面、変形例、構成要素の組合せ、法的に過度に狭めない表現が要る。ここに、通常の要約生成や論文からの説明文生成とは異なる難しさがある。
また、評価も表層的な類似度だけに頼っていない。著者らは、NLI に基づく SCALE を長文向けに使い、生成文が参照特許や論文にどの程度支えられているか、参照特許の内容をどの程度覆っているかを分けて見る。文体については n-gram profile と StyloMetrix を用い、特許らしい言語かどうかを別に測る。長く書けること、事実に合っていること、特許らしく書けることを分けた点が、このタスクの性質に合っている。
問題設定
本論文が扱う課題は、研究論文と特許アウトラインから、特許の説明部分に相当する長い文書を生成することである。入力は、発明の技術内容を述べた研究論文と、特許の各節に何を書くかを示すアウトラインである。出力は、特許出願に近い構成と文体を持つ長文の特許記述である。論文ではこのタスクを PAP2PAT として定式化し、train 1,000 件、validation 242 件、test 500 件に分けている。さらに、評価対象の open-weight LLM の事前学習時期より後に公開された 2024 年の特許 71 件を non-contaminated test set として用意している。
この課題は、単に長い文章を書けばよいわけではない。PAP2PAT の特許説明は平均約 18k トークンで、論文は平均約 8k トークンである。しかも、特許と論文の 4-gram の共有率は 8.3% にすぎない。両者は同じ発明を扱っていても、論文は実験や分析を詳しく述べ、特許は応用、変形例、保護範囲に関わる説明を多く含む。したがって、モデルは内容を参照しつつ、文書ジャンルを大きく変換しなければならない。
既存研究の多くは、特許のタイトル、abstract、請求項など比較的短い部分に焦点を置いていた。だが著者らのデータでは、説明部分が特許文書の 91.8% を占める。実務上の作業量を考えると、この部分の支援が重要になる。PAP2PAT は、この長い説明部分を研究対象に置いた点で、従来の特許生成研究より実務の形に近い。
提案手法
著者らは、ベンチマークとともに COPGEN(chunk-based outline-guided patent generation)を提案する。COPGEN は、LLM が一度の呼び出しで十分に長い特許文書を出しにくいという制約を前提に、文書をアウトライン単位で分割して生成する。各チャンクでは、現在のアウトライン項目を検索クエリとして使い、研究論文から関連段落を BM25 で取り出す。論文 abstract と見出しは常に含め、残りの段落は関連度順にトークン上限まで加える。モデルには、その論文コンテキスト、現在のアウトライン、前のチャンクのアウトラインを渡し、該当部分の特許文を生成させる。
この設計は、長文生成を小さな生成問題の列に分けるものである。生成後は各チャンクを連結し、境界で重複した見出しを軽く取り除く。既定設定では、instruction に 2k トークン、論文コンテキストに 3k トークン、出力特許に 2k トークンを割り当てる。さらに、出力長を参照特許に近づけるため、1 チャンクあたりの出力割当を小さくし、チャンク数を増やす設定も試している。論文では Qwen2-72B に対して、出力特許割当を 400 トークンにしたとき、平均出力長が参照特許とほぼ一致した。
評価指標も提案手法の一部として重要である。内容面では、生成特許が参照特許で支持されるか、参照特許と論文で支持されるか、また生成特許が参照特許の内容をどれだけ覆うかを SCALE で測る。長文では全組合せの NLI 判定が重くなるため、仮説文書から文をサンプルし、BM25 で関連する前提チャンクを絞ってから NLI スコアを計算する。言語面では、特許文書の n-gram profile と StyloMetrix の特徴を用い、生成文の文体が参照特許群に近いかを測る。反復については、256 トークン窓の repetition rate と、過度な反復窓の割合を報告する。
結果
主実験では、Llama-3 8B、Llama-3 70B、Mixtral-8x7B、Qwen2-72B などの open-weight LLM が用いられた。単一の LLM 呼び出しで論文とアウトラインを与える方法では、出力が参照特許の 15% から 18% 程度にとどまり、長さが大きく不足した。COPGEN はこの問題を緩和し、より長く、長さを制御しやすい出力を得た。たとえば Qwen2-72B の COPGEN 既定設定では 8.1k トークン、参照特許の 44.8% の長さになり、出力割当を 400 トークンに調整した設定では 18.1k トークン、参照特許と同程度になった。
内容の被覆率も、長い生成により改善した。Qwen2-72B の調整済み COPGEN は、Gen→Ref の SCALE coverage で 46.8 を示し、表中の生成手法のなかで最も高い値になっている。一方で、長く書くほど factuality を保つことは難しくなる。これは precision と recall の関係に似ており、短く安全に書けば支持されやすいが、参照特許の多くを覆えない。論文はこの trade-off を、特許生成の中心的な制約として扱っている。
アウトラインと論文コンテキストはいずれも有効であった。アウトラインを外すと出力は短くなり、論文に近い内容へ寄るが、特許として必要な内容を十分に出せなくなる。アウトラインを細かくすると、出力長を増やさずに coverage、factuality、BERTScore が改善した。論文からの段落検索も効いており、NoPaper、AbstractOnly、BM25 の順に性能が上がる。BM25 と、参照特許本文をクエリに使う BM25Oracle の差は小さく、アウトラインが検索クエリとして十分働くことを示している。
ファインチューニングの結果は単純ではない。Llama-3 8B を LoRA でファインチューニングすると、特許らしい文体への近さは大きく上がる。しかし factuality は 10 ポイント以上下がり、無限反復に近い出力も増えた。特許文書そのものが似た表現を繰り返しやすいため、その癖をモデルが強く学ぶ可能性がある。2 名の AI 分野の弁理士による小規模評価では、15 件中 8 件で大きな時間節約の可能性があるとされたが、非限定的表現の不足と詳細度の不足が主要な課題として挙げられた。
具体例
たとえば、入力として「センサー時系列から異常を検出するニューラルモデル」の研究論文が与えられたとする。論文には、モデル構成、学習データ、評価指標、既存手法との比較が書かれている。弁理士は別に、「技術分野」「背景技術」「発明の概要」「実施形態」「変形例」といった節ごとのアウトラインを用意し、各節で触れるべき要点を短い箇条書きにする。COPGEN はまずアウトラインを小さなまとまりに分け、たとえば「実施形態: センサー信号を窓分割し、特徴表現を生成する」という部分に対して、論文中のモデル説明や前処理の段落を BM25 で取り出す。
そのうえで LLM は、その部分だけの特許文を生成する。期待される出力は、論文の実験説明をそのまま写した文章ではなく、「一実施形態において、装置は複数のセンサー信号を受け取り、所定の時間窓ごとに特徴量を生成してもよい」のように、構成要素と処理手順を特許文書の形で述べる文章である。間違えやすい点は二つある。第一に、論文では最良の実験設定として書かれている値を、特許の必須条件のように狭く書いてしまうことである。第二に、論文にない応用例や構成を補ってしまい、参照文書で支持できない内容を作ることである。PAP2PAT と COPGEN の評価は、このような「内容は足りるが狭すぎる」「特許らしいが事実から離れる」という失敗を分けて観察しようとするものである。