1.自然言語処理のビジネス適用における課題
深層学習をはじめとしたAI技術が目覚ましい進歩を遂げており、自然言語処理技術のビジネス適用も進んでいます。近年の自然言語処理技術においては、汎用言語モデルであるBERT(※1)を中心とした技術が脚光を浴びています。しかし、実ビジネスで取り扱う文書の中には業界特有の専門性の高い用語や言い回しが多く、これらの要因により十分な精度を得られないことが課題となっていました。
業務領域(ドメイン)特有な用語や言い回しを含む文書に対して、類似表現を含む文書を大量に用意して汎用BERTに追加学習を施す、という方策が一定の成果を上げています。しかしこの方策が行えるのは、処理対象の業務文書と類似の文書が大量に蓄積されている場合や業務有識者が人手で類似文書を収集できる場合に限定されていることが課題となっています。
BERT(Bidirectional Encoder Representations from Transformers)とは2018年10月にGoogleが発表した言語モデルです。顔認識や文字認識などでAIのビジネス導入が進んでいる“画像認識“分野では大規模なデータセットで学習させたモデルを元に、目的のデータセットで追加学習をさせる“転移学習“という技術が大きな成果をあげています。この転移学習を自然言語処理に適用し大きな成果を達成したのがBERTです。
BERTは文書の文脈を理解でき、少ない学習データで既存の方式を上回る精度を実現する事例が多く報告されており自然言語処理のブレイクスルーとなりうる技術です。
Google公式レポジトリ
https://github.com/google-research/bert
2.ドメイン特化BERTフレームワーク
このような課題に対して、NTTデータでは自動収集したドメイン文書を用いてBERTに追加学習を行い、お客さまの業務文書に合わせて最適な言語モデルを自動で構築する仕組み(ドメイン特化BERTフレームワーク(FW))を開発しました。このFWは図1のような手順で処理対象の業務文書を解析して、追加学習に必要なドメイン文書を自動で収集します。
図1:ドメイン特化BERT-FWの処理概要
ドメイン特化BERT-FWの有効性を確認するため、金融知識を求められる課題として、教材制作会社作成の一種外務員資格試験(※2)の模擬試験に回答する試験回答AIを開発し、各モデルによる得点を比較しました。
ドメイン特化BERT-FWでは自動収集したドメイン文書を学習させることで、汎用BERTや人手で選定した文書を追加学習したモデル(金融版BERT(※3))に比べて、高い得点を得ることができました。(表1)
表1:金融外務員試験解答による性能検証結果
言語モデル | 金融系資格試験の得点※ |
---|---|
NTT版BERTモデル | 280点 |
金融版BERTモデル | 308点 |
ドメイン特化BERT-FWによるモデル | 328点 |
※440点満点で合格相当点数は308点(7割)
金融商品取引法上の登録外務員として、金融商品を取り扱う者の資質確認のため日本証券業協会が実施する資格試験。金融商品取引業に関する法令・諸規則の知識等が問われます。
~金融版BERTモデルの開発~
https://www.nttdata.com/jp/ja/news/release/2020/071000/
3.ドメイン特化BERT-FWの想定業務例
ドメイン特化BERT-FWの適用先の例として下記のような業務を想定しています。
- 電子カルテの記載内容チェック
- 論文・症例報告を活用した創薬支援
- 安全データシート(SDS)記載の危険度チェック
- 試薬の法規制確認・リスク評価
- 稟議書の記載内容チェック
- 日報からのプロジェクトリスク抽出
- FAQの回答自動引き当て
- 社内文書(マニュアル・技術文書 等)検索
その他にもドメイン特化BERT-FWは、さまざまな言語処理の課題に適用できます。もし、ビジネス文書に自然言語処理を適用したい課題がありましたらぜひドメイン特化BERT-FWの活用を検討いただければと思います。
共同検証のご相談・お申し込みはこちらから
https://www.nttdata.com/jp/ja/news/release/2021/031600/