ENGinius: A Bilingual LLM Optimized for Plant Construction Engineering
- プラント建設エンジニアリング(Plant Construction Engineering, PCE)向けに、英語・韓国語の bilingual LLM である ENGinius を構築した論文である。
- 一般 LLM が専門略語や規格文書を誤解しやすい問題に対し、DAPT、instruction tuning、Direct Preference Optimization(DPO)を組み合わせている。
- KOPIA と Professional Engineer(PE)ベンチマークで、同規模またはより大きい汎用モデルを上回り、文書レビューや技術 Q&A への実装例も示している。
Abstract(日本語訳)
大規模言語モデル(LLM)の近年の進歩は、さまざまな分野のプロセスを自動化し最適化する可能性によって注目を集めている。しかし、プラント建設産業における LLM の導入は、主としてこの分野の高度な専門性と、ドメイン固有の学習・評価用リソースの不足により、なお限られている。本研究では、プラント建設エンジニアリング向けに設計された初の LLM である ENGinius を提案する。データ構築とモデル学習の手順を示し、あわせて、この十分に扱われてこなかったドメインに合わせた初のベンチマークを提示する。ENGinius が、拡充されたドメイン知識を活用することで、プラントエンジニアに最適化された応答を提供することを示す。また、技術文書処理や多言語コミュニケーションなどのユースケースを通じて、その実用上の効果も示す。
論文の面白いところ
この論文の中心は、LLM を「何でも答える汎用助手」ではなく、産業文書を読むための専門道具として作り直している点にある。PCE では、同じ略語でも分野が変わると意味が変わる。論文中の例では、一般的な ChatGPT は NGS を生命科学の Next-Generation Sequencing と解釈しがちだが、PCE では Natural Gas System と読むべき場合がある。この種の誤りは、単なる語彙不足ではなく、契約、規格、機械、配管、電気、建築が交差する現場知識の不足から生じる。著者らは、その問題をモデル学習、評価ベンチマーク、実運用の三つをそろえて扱っている。特に、韓国語と英語の bilingual 設計は、英語中心の専門文書と現地語の業務文書が混じる実務を反映している。研究としては、ドメイン特化 LLM の有効性を示すだけでなく、専門産業で何を評価すべきかを具体化している点が有用である。
問題設定
プラント建設エンジニアリングでは、技術規格、入札文書、契約条項、設計基準、現場報告が密接に関係する。通常の NLP 分類器やルールベースの抽出器は、特定の項目を探す用途には使えるが、文書間の依存関係や略語の文脈依存性を扱いにくい。汎用 LLM は自然な文章を生成できる一方で、専門略語や規格名の意味を一般分野の知識に引き寄せてしまうことがある。著者らは、医療、金融、法務の略語では ChatGPT が高い認識率を示すのに対し、PCE の略語では、ドメイン名を与えても成功率が 55.6% にとどまると報告している。これは、PCE のテキストが一般コーパスで少なく、モデルが業界の語彙と運用の対応を十分に学んでいないためと考えられる。さらに、韓国企業のような非英語圏の現場では、英語の規格文書と韓国語の社内文書が混在する。したがって、PCE 向けモデルには、専門知識と bilingual な言語処理の両方が求められる。
提案手法
ENGinius は、SOLAR-10.7B を土台にして 14.4B パラメータへ拡張したモデルである。まず WECHSEL により韓国語トークンの embedding を英語トークンとの意味的近さから初期化し、LLaMA Pro の手法を用いて破滅的忘却を抑えながら bilingual な継続事前学習を行う。この段階のモデルが ENGinius-BasePT であり、英語能力を大きく損なわずに韓国語能力を高めるための基盤となる。次に、PCE 関連の文献、規格、政府資料、ニュース、論文、技術記事などからなる約 16.5B トークンのコーパスで Domain-Adaptive Pre-Training(DAPT)を行い、ENGinius-PlantPT を作る。その後、ENG-TIPS 由来の専門 QA、分野分類、専門用語辞書、deviation report 生成、多肢選択問題などを含む ENGine-QA と Alpaca-GPT4-ko により instruction tuning を行う。最後に、GPT-4o と Mixture of Experts prompting で作った候補回答を専門家が評価し、好ましい回答と好ましくない回答の組を使って Direct Preference Optimization(DPO)を適用する。これにより、単に専門語を覚えたモデルではなく、現場の専門家が妥当と見る応答へ寄せた ENGinius-14.4B が得られる。
結果
評価では、韓国語の KOPIA ベンチマークと、英語の Professional Engineer(PE)ベンチマークが用いられている。KOPIA は機械・配管領域の 1,000 問からなり、用語、技術標準、工程知識を問う。PE ベンチマークは 80 問で、規格知識、計算問題、一般概念を含む。DAPT の効果は明確で、ENGinius-BasePT から ENGinius-PlantPT へ進むと、KOPIA の配管領域は 44.85 から 54.36、機械領域は 50.61 から 60.37 に上がっている。最終モデル ENGinius-14.4B は KOPIA 平均で 60.77 を示し、Gemma2-9B-it、Orion-14B-Chat、SOLAR-10.7B を上回った。PE ベンチマークでは平均 67.5 で、GPT-4 の 64.0 を上回る。ただし計算問題では GPT-4 が 52.94、ENGinius が 46.47 であり、数学的推論の強さでは汎用上位モデルに分がある。論文はまた、RAG を使った専門 Q&A、入札文書の差分分析、client letter と deviation report の生成、専門文書翻訳への展開例を示している。ただし、RAG そのもののベンチマーク評価は本研究の範囲外であり、今後の課題として残されている。
具体例
たとえば、エンジニアが「CEMS の accuracy と precision はどのように確認するか」と質問したとする。CEMS は Continuous Emission Monitoring System を指し、排出ガス監視に関わる規格や品質保証手順と結びつく。汎用 LLM は、略語を知っていても、どの規格を参照すべきかを曖昧に答えたり、一般的な測定精度の説明に流れたりしやすい。ENGinius を組み込んだシステムでは、まず関連する国際規格や社内標準を検索し、質問に近い箇所を取り出す。次に、その根拠を用いて、EPA の performance specification や 40 CFR Part 60 Appendix F の品質保証手順に沿って確認する、という形で回答を生成する。期待される出力は、単に「校正で確認する」ではなく、参照すべき規格、確認対象、手順の位置づけを含む短い技術回答である。間違えやすい点は、CEMS を別分野の略語と取り違えること、または規格名なしに一般論だけで答えることである。この論文の立場では、専門モデルと検索を組み合わせることで、そのような誤りを減らし、現場文書に接続した回答を作りやすくする。