~「NTT DATA Technology Week 2020」連動企画~
※本記事は、「NTTデータ テクノロジーカンファレンス 2020」の講演内容に関連する記事です。
講演聴講については本記事の最下部をご覧ください。
AIプロジェクトはシステム開発フェーズへ移行している
AI(=機械学習)が注目を浴びるようになり、はや数年が経ちました。今では日々のニュースでAIの話題を聞かない日はないほど、ポピュラーな技術になったと言っても過言ではありません。一方、AIを活用したプロジェクトはまだ実証実験(=PoC)段階のものが多く、「社会で広く活用され、継続的な効果を上げる状態」には至っていないのもまた事実です。今後、フェーズがPoCからシステム実装を行う場面に移ると、AIを組み込んだシステム全体の品質を保証する必要が出てきます。しかし、AIのモデルは学習データから機械的に構築された帰納的なシステムです。入出力が事前に、かつ網羅的に規定された今までのシステムとは異なる観点での品質保証が求められるでしょう。AIシステム開発のポイントについてお伝えする後編となる本記事では、AI品質について観点を整理し、システムへの落とし込みについて考えたいと思います。
AIシステムの全体像を理解しよう
品質の議論に入る前に、まずAIシステムの全体像を整理します(図1)。
図1:AIシステムの全体像
AIのモデル(=AIコンポーネント)を中心に、それを取り囲む形でAIシステムが配置されます。PoCフェーズでは主にAIコンポーネントの精度向上を目指して実験が繰り返されますが、システム開発の段階では周辺のAIシステムも含めて構築が進められます。つまり、大前提としてAIコンポーネント・AIシステムともに「ソフトウェアとしての品質」が保証される必要があり、それに加え「AI固有の品質」の担保が必要となるわけです。
AI品質を整理しよう
つぎに、メインテーマとなる「AI固有の品質」について整理してみましょう。AIの品質保証については、さまざまな団体や研究会(※1)~(※4)にて整理が進められていますが、現時点ではまだ標準とされるものはありません。既存の整理を参考にしたAI品質のポイントは、図2となります。
図2:AI品質のポイント
AIの品質の代表的な観点に、公平性・有効性・解釈性・安全性があります。
1点目の公平性は「AIシステムの出力に差別的なバイアスがかかっていてはいけない」ということです。AIのモデルは学習データにより生成されるため学習データの影響を強く受けます。したがって、学習データそのものに不適切なバイアスがかからないよう、学習データの質や量を適切に保つことが重要になります。また、学習データにわずかにでもバイアスがかかっていると、モデルによってバイアスが増幅される場合もありますので注意が必要です。
2点目の有効性は「AIシステムがビジネスに十分なメリットを与える必要がある」ということです。これを実現するためには、モデルの精度が十分に高くなるまで実験を繰り返す必要があります。また、AIシステムに組み込まれた後も実験時と同等の性能を維持できるようにすること、すなわちAIモデルの汎化性能を高める必要もあります。さらに、AIモデルのふるまいが時間経過により変化してしまう点にも注意が必要です。これは、インプットとなるデータが時間経過とともに変化するためで、性能や精度を継続的に監視し、必要に応じて再学習などの対処を行うことが求められます。
3つ目の解釈性は「生成されたAIモデルをできる限り理解しやすくする」ということです。AIモデルは基本的にはブラックボックスですが、ビジネス部門からAIモデルの判断の根拠を求められることもあります。そのため、モデルの精度を高めることはもちろんのこと、比較的理解が容易なアルゴリズムを選択したり、データのトレーサビリティを確保したりすることで、AIモデルの出力の妥当性が納得されるように説明することが重要です。
最後、4点目の安全性は「AIモデルが不適切な挙動を示した際に、取り巻くAIシステム全体として挙動の安全性を保証する」ということです。図1にもあるように、AIコンポーネントへの入力部分では、データを安定的に供給するため、ETLパイプライン出力の異常検知が必要になりますし、出力部分ではAIコンポーネントが不適切な挙動を示した際に、AIシステム全体としての挙動を保証するためのフェールセーフの仕組みが必要になります。このフェールセーフの仕組みは、AIをシステム化する開発フェーズで特に重要となる観点です。
AI品質を保証するロールを整理しよう
ここまでAIシステムの全体像、特有の品質観点を整理してきました。最後に、これらの観点を保証するロールについても整理しましょう。AIシステムの構築にあたっては、様々なロールがそれぞれの専門性をもって開発に携わります。先ほど示した4つの品質観点のうち、公平性および有効性、解釈性は、主にPoCフェーズにおいてデータサイエンティストによって保証される観点です。一方、安全性は主にシステム開発フェーズにおいて、データエンジニアや機械学習エンジニアによって保証される観点です。
まとめ
今回はAIシステム開発における品質保証観点について、AI固有の品質観点に着目し整理を行いました。公平性・有効性・解釈性・安全性の4観点について、データサイエンティストおよびデータエンジニアがそれぞれ担保する必要があること、また該当のAIシステムがどのような目的でシステムに組み込まれるかによって、特に重要視すべき品質観点が異なることがお分かりいただけたかと思います。
NTTデータはこれまで取り組んできたAIプロジェクトの知見を収集・標準化し、AI開発プロセスとして整理しています(※5)。本記事で取り上げたAI品質に関する知見も開発プロセスに盛り込んでおりますので、AIのシステム化でお困りの点がございましたら、お気軽にお問い合わせください。
イベントのお知らせ
NTTデータ主催 オンラインイベント
コロナ禍の状況で世の中が大きく変化する中、いち早く新たな未来を創っていくために、先進的な知見と確かな技術力の重要性がより高まっています。
本イベントでは、AIをエンタープライズで活用するための取り組みや、組織改革とクラウド活用の事例、COVID-19に立ち向かうNTTデータの最先端技術、OSSを中心とした最新技術動向など、NTTデータならではの先鋭的な技術トピックを、一緒に取り組んだお客様と共にNTTデータの高度な技術者がご紹介いたします。
本記事に関する講演情報
※講演開始時間は変更になる可能性がございます。
2020年10月14日13:50~
「信頼できるAIシステム開発の勘どころ~AI開発方法論×AI品質保証~」
NTTデータ 技術開発本部 部長 武田 光平
2020年10月14日14:40~
「NTTデータが考えるデータ基盤の次の一手~AI活用のために知っておくべき新潮流とは?~」
NTTデータ システム技術本部 デジタル技術部 土橋 昌
2020年10月14日15:05~
「データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み」
NTTデータ システム技術本部 デジタル技術部 八木 香充/大山 真実
イベント詳細、お申込みはこちら
https://oss.nttdata.com/techconf2020/
NTT DATA Technology Week 2020
NTTデータ テクノロジーカンファレンス 2020と並行して、2020/10/12(月)~23(金)に「NTT DATA Technology Week 2020」を開催します。
日経BP社主催「日経xTECH EXPO 2020」と当社主催「NTTデータ テクノロジーカンファレンス 2020」の2つのオンラインイベントを中心に、よりよい社会の創造に向けてNTTデータが注目する技術情報を多数発信していきます。
このDATA INSIGHTでも、「#TechnologyWeek2020」とタグをつけ、関連する記事の紹介や新規記事の発信を行っていきます。
With/Afterコロナで新しい社会の姿が求められる中、今後の社会変化をリードするデジタルテクノロジーについて皆様と一緒に考える2週間にできればと思います。
ぜひご参加ください。
イベント詳細はこちら
https://www.nttdata.com/jp/ja/event/2020/technologyweek/