業務領域特有の用語や文脈を理解する言語モデルの提供体制確立 ~業界を限定しないさまざまなドメインに特化したBERTモデルの提供開始~
2021年3月16日
株式会社NTTデータ
株式会社NTTデータ(以下、NTTデータ)は、汎用言語モデルBERT注1を特定の業務領域(ドメイン)に応じて最適化し、お客さまの扱う業務文書に適した言語モデルを自動で構築するドメイン特化BERT構築フレームワーク(以下ドメイン特化BERT-FW)を開発しました。
本FWの利用により、NTTデータは業界を限定しないさまざまなドメインに特化したBERTを短期間で構築し、お客さまに高性能な言語処理サービスを素早く提供できるようになりました。
本FWは、専門用語や特有の文脈を含む文書を解析する際に、言語モデル自体をお客さまの業務文書に最適化することで従来のBERTと比べて高精度の結果を得ることができます。また、言語モデル構築の一連の流れは自動化されているため、専門家によるチューニングを行う場合と比べて短期間でモデルを構築することが可能です。
本FWの適用により、専門用語や特有の文脈への対応が必要だった分野での自然言語処理技術活用の幅が大きく広がることを見込んでいます。2021年4月以降順次、文書を扱う業務の効率化やサービスの高度化を検討している企業を募り、2021年度中にお客さまとの共同検証の5件実施を目指します。
背景
近年、深層学習をはじめとしたAI技術が目覚ましい進歩を遂げており、自然言語処理技術のビジネス適用も進んでいます。BERTの活用も盛んに試行されていますが、実ビジネスで取り扱う文書では業界特有の専門性の高い用語や言い回しが多く、これらの要因により十分な精度が得られないことが課題となっていました。これに対して、NTTデータでは金融業界文書に特化した金融版BERT注2を開発し、2020年7月より実施している金融業界向けの自然言語処理の実証実験において活用しています。こうした業界特化の言語モデルは金融業界以外のお客さまにおいても高いニーズがあります。それらに迅速に応えるため、お客さまの業務データごとに適した追加学習データを自動収集する仕組みであるドメイン特化BERT-FWを開発しました。
特長
ドメイン特化BERT-FWは、汎用言語モデルであるBERTに追加学習を行い、お客さまの業務文書に合わせて最適な言語モデルを構築する仕組みです。
図1:ドメイン特化BERT-FWの仕組み
従前から、一般的なBERTに追加学習を行い業界特有の知識を学習した言語モデルを作成するアプローチは一定の成果を上げていました。一方で、自然言語処理を適用する業務によっては事前に「業界」の範囲を適切に定義することが難しいことが課題となっています。これに対して本FWでは、対象とする業務文書ごとに最適なデータを収集して追加学習を行うことにより解決を図っています。
本FWでは、処理対象の業務文書から学習前の一般的なBERTモデルによる扱いが難しい文章を効率的に選別します。主に専門用語を含む文を対象に類似した文章をインターネットから収集し、追加学習することで特定ドメインに特化した言語モデルを構築します。これにより、業界を限定せずにお客さまの業務ごとに最適化された言語モデルを提供できるようになりました。この一連の流れを自動化することで、迅速に言語モデルを構築し、一般的なBERTモデルを上回る精度を実現します。
表1:言語モデル構築における課題と対応
BERTを用いたドメイン特化言語モデル構築における課題 | ドメイン特化BERT-FWによる対応 |
---|---|
業界特有の単語や言い回しを含んだ大規模な文章の収集 | お客さまの業務文書を用いて一般的なBERTモデルが苦手とする文を抽出し、インターネット上から類似文章を自動で収集 |
上記文章の学習に適した文の選別 | 収集した文章と業務文書を比較し類似している文章を自動で選別 |
性能
ドメイン特化BERTモデルの性能を評価するため、金融系資格試験に解答するタスクで検証を行いました。汎用モデルであるNTT版BERT注3およびNTTデータが2020年7月に構築した金融版BERTモデルと比べて、ドメイン特化BERT-FWで構築したモデルは高精度であることが確認できました。
検証:金融系資格試験における得点比較 金融知識を求められる課題として、教材制作会社作成の一種外務員資格試験注4の模擬試験注5にする試験回答AIを開発し、各モデルによる得点を比較
表2:金融外務員試験解答による性能検証結果
言語モデル | 金融系資格試験の得点 |
---|---|
NTT版BERTモデル | 280点 |
金融版BERTモデル | 308点 |
ドメイン特化BERT-FWによるモデル | 328点 |
※440点満点で合格相当点数は308点(7割)
モデル構築の期間短縮効果
本FWの活用により、お客さまの業務に最適化されたモデルを作成する際の期間を大幅に短縮することができます。例えば、検証1向けのモデル作成でのモデル構築に要した期間について、金融版BERTモデルでは構築期間が29日であったのに対し、ドメイン特化BERT-FWを用いたモデルは8日で構築することができました(図2)。また、自動化による副次効果として、業務有識者(お客さま等)の作業は不要となりました。
ドメイン特化BERT-FWは自然言語処理技術の短期間での業務適用や細かなタスクごとに並行した複数のモデル構築を実現します。
図2:ドメイン特化BERT-FWによるモデル構築期間短縮のイメージ
検証賛同企業の募集
今後、NTTデータの持つ自然言語処理に関する独自ノウハウや技術を活用し、ドメイン特化BERT-FWの実ビジネス適用を進めていくため、お客さまとの共同検証5件を2021年度中に行う予定です。それに伴い、検証賛同企業を募ります。
2021年7月末まで企業・公共団体等の申込みを受け付けます。あくまで任意ですが、申し込み時にお客さまの以下の情報を付記していただけると、検証の方針検討がスムーズに進みます。
- お客さまの業界
- 自然言語処理の適用を検討している業務
(○○のようなサービスを検討しているが自然言語処理技術を使えないか。××の業務を効率化・自動化したい。など) - 処理対象の文章例
(業務文書内で一般的な文の例数サンプル)
申し込みはこちらにご連絡ください。
株式会社NTTデータ
技術革新統括本部
技術開発本部
E-mail:rdhkouhou@kits.nttdata.co.jp
検証の役割
- 申込団体:検証用データの準備、検証計画の検討、検証結果の有効性確認
- NTTデータ:検証計画の検討、検証環境の構築、検証の推進
ドメイン特化BERT-FWの想定業務例
- 電子カルテの記載内容チェック
- 論文・症例報告を活用した創薬支援
- 安全データシート(SDS)記載の危険度チェック
- 試薬の法規制確認・リスク評価
- 稟議書の記載内容チェック
- 日報からのプロジェクトリスク抽出
- FAQの回答自動引き当て
- 社内文書(マニュアル・技術文書 等)検索
注釈
- 注1BERT(Bidirectional Encoder Representations from Transformers)とは2018年10月にGoogleが発表した自然言語処理モデルであり、自然言語処理分野のさまざまなベンチマークにおいて従来モデルの精度を上回るなど近年非常に注目されています。
https://arxiv.org/abs/1810.04805 - 注2NTTデータが開発した金融分野に特化したBERTモデル。
https://www.nttdata.com/jp/ja/news/release/2020/071000/ - 注3NTT版BERTは日本最大規模のコーパス(日本語Wikipediaに加えニュースサイトやブログより収集(12.7GB))で学習させたBERTモデル。
- 注4金融商品取引法上の登録外務員として、金融商品を取り扱う者の資質確認のため日本証券業協会が実施する資格試験。金融商品取引業に関する法令・諸規則の知識等が問われます。
- 注5「うかる!証券外務員一種2018-2019 必修問題集 フィナンシャルバンクインスティチュート編 日本経済新聞出版」の模擬試験部分を利用。
- 文章中の品名、会社名、団体名は、各社の商標または登録商標です。
本件に関するお問い合わせ先
報道関係のお問い合わせ先
株式会社NTTデータ
広報部
田中
TEL:050-3644-3022
製品・サービスに関するお問い合わせ先
株式会社NTTデータ
技術革新統括本部
技術開発本部
AI技術センタ
稲葉、野村、佐藤、和知
TEL:050-5546-9741