金融業界向け自然言語処理技術の検証開始 ~金融版BERTモデルの開発~
2020年7月10日
株式会社NTTデータ
株式会社NTTデータ(以下、NTTデータ)は、金融版BERTを用いた自然言語処理技術に関して、銀行や証券会社などの金融関連企業を募り、2020年7月以降順次、実証検証を開始します。
金融版BERTとは、近年自然言語処理において注目を集めているBERT注1を、金融業界向けにNTTデータが独自に特化させた言語モデルです。金融専門用語や特有の文脈を含む文書を解析する際に、その都度言語モデルの学習を行う必要がなくなり、学習工程を短縮しつつ、高精度の結果を得ることが可能になります。BERTには今までの自然言語処理技術では難しかった文脈を踏まえた解析が可能という特長があり、本言語モデルの適用により、金融業界コールセンターにおけるFAQ回答引き当てや、営業日報からの情報抽出など、自然言語処理技術を要するさまざまな処理の精度向上が期待できます。
今後NTTデータは、金融版BERTを活用し2020年度に5件の実証検証を行い、2021年度中にサービス提供を開始します。
背景
自然言語処理技術のビジネス活用に向けた研究が進み、金融業界においてもチャットボットによる顧客対応高度化や審査支援による業務効率化などに活用されつつあります。一方、金融業界の文章は、業界特有の専門性の高い用語や言い回しが多く、辞書整備や多数のルール構築が必要になるなど、自然言語処理技術の適用のためには多大な労力と時間がかかっていました。また、日本語金融文書へのBERT適用には、まず日本語向けのBERTモデルが必要ですが、大規模なコーパス注2で学習させた日本語モデルは少ない注3といった課題もありました。
このような課題に対し、NTTデータでは大規模コーパスで学習させたNTT版BERTを元に、独自に収集した金融関連文書を用いて金融版BERTを開発し、ビジネス適用の実証検証を開始することとしました。
図:金融版BERTイメージ図
概要・特長
Googleの発表したBERTモデルは13GB以上注4のコーパスで学習させたものです。一方、公開されている日本語向けBERTモデルの大半が日本語Wikipediaコーパス(3GB程)で学習させたものでした。NTTメディアインテリジェンス研究所では、日本語Wikipediaに加えニュースサイトやブログより収集した大規模コーパス(12.7GB)を用いており、日本最大規模のコーパスで学習させたBERTモデル(NTT版BERT注5)を開発しました。
金融版BERTは、NTT版BERTにNTTデータで独自に収集した金融関連文書を用い、金融文書向けに追加学習したモデルです。特定分野のコーパスで学習させたBERTモデルは、その分野のタスクにおいては一般的なコーパスで学習させたBERTモデルより高い精度を達成するという結果が報告されています。注6
BERTモデルの評価
金融文書への自然言語処理における金融版BERTモデル性能を評価するため、以下の2つの事前検証を行い、いずれの検証においても、NTT版BERTが大規模学習の効果を発揮していること、さらに金融版BERTは金融文書向けに適したモデルになっていることが確認できました。
事前検証1 | 金融文書における単語予測の正確性評価 NTTデータが収集した金融関連文書に対し単語マスキングを行い元の単語予測精度を評価 |
---|---|
事前検証2 | 金融系資格試験における得点比較 金融知識を求められる課題として教材制作会社作成の一種外務員資格試験注7の模擬試験注8に回答する、BERTを活用した試験回答AIを開発し、各モデルによる得点を比較 |
事前検証1 | 事前検証2 | |
日本語版BERTモデル注9 | 0.54 | 263点 |
NTT版BERTモデル | 0.66 | 280点 |
金融版BERTモデル | 0.73 | 308点 |
※事前検証1:値が高いほど優れている指標
※事前検証2:金融版BERTモデルのみ合格相当点数である7割(308点)を獲得
金融版BERTの活用想定業務
- 日報からの情報抽出
- 稟議書の記載内容チェック
- 財務情報からのリスク抽出
- FAQの回答自動引き当て
- チャットボットによる問い合わせ対応等
今後について
検証賛同企業の募集
NTTデータの持つ、自然言語処理に関する独自ノウハウや技術を活用し金融版BERTモデルの実ビジネス適用を進めていくため、検証賛同企業を募ります。2020年9月末まで金融機関の申し込みを受け付けます。受付後に、金融機関とNTTデータで検証計画を擦り合わせ、NTTデータにて効果測定、分析を行います。検証を通じて技術の有効性やビジネスへの導入に向けた課題、対応方法を明らかにします。
申し込みはこちらにご連絡ください。
株式会社NTTデータ
技術革新統括本部
技術開発本部
E-mail:rdhkouhou@kits.nttdata.co.jp
検証の役割
金融機関 | 検証用データの準備、検証計画の検討、検証結果の有効性確認 |
---|---|
NTTデータ | 検証計画の検討、検証環境の構築、検証の推進 |
注釈
- 注1BERT(Bidirectional Encoder Representations from Transformers)とは2018年10月にGoogleが発表した自然言語処理モデルであり、自然言語処理分野のさまざまなベンチマークにおいて従来モデルの精度を上回るなど近年非常に注目されています。
https://arxiv.org/abs/1810.04805 - 注2テキストや発話を大規模に集めてデータベース化した言語資料のこと。
- 注3公開されている多くの日本語BERTがWikipediaにて学習。(推定約3GB)。当社調べでは、10GBを超えるコーパスで学習させているのはLaboro.AI社モデル(12GB)のみ。
https://github.com/laboroai/Laboro-BERT-Japanese/ - 注4英語Wikipedia(12.85GB)+Book Corpusにて学習との情報から推測。
- 注5NTTグループのAI「corevo®(コレボ)」を構成する技術の一つです。
- 注6BioBERT https://academic.oup.com/bioinformatics/article/36/4/1234/5566506
UTH-BERT https://ai-health.m.u-tokyo.ac.jp/uth-bert など。 - 注7金融商品取引法上の登録外務員として、金融商品を取り扱う者の資質確認のため日本証券業協会が実施する資格試験。金融商品取引業に関する法令・諸規則の知識等が問われます。
- 注8「うかる!証券外務員一種2018-2019 必修問題集 フィナンシャルバンクインスティチュート編 日本経済新聞出版」の模擬試験部分を利用。
- 注9情報通信研究機構公開のモデル(BPEありモデル)を利用して検証。
https://alaginrc.nict.go.jp/nict-bert/index.html
- 「corevo®」は日本電信電話株式会社の登録商標です。http://www.ntt.co.jp/corevo/
- 文章中の品名、会社名、団体名は、各社の商標または登録商標です。
本件に関するお問い合わせ先
報道関係のお問い合わせ先
株式会社NTTデータ
広報部
宮尾
TEL:050-3644-3022
製品・サービスに関するお問い合わせ先
株式会社NTTデータ
技術革新統括本部
技術開発本部
AI技術センタ
稲葉、野村、佐藤
TEL:050-5546-9741