米国電気電子学会の新鋭のカンファレンス(IEEE AITest 2021)に論文採択 ~人工知能(AI)の弱点となる想定外のデータを効率的に検出することが可能に~
2021年11月11日
株式会社NTTデータ
NTTデータは、今後も世界に先駆けたAIテスト技術の研究開発を通して、産学共創体制の下でAIガバナンス確立を目指して取り組んでいきます。
論文について
AIは誤動作を予防するためにテストする必要がありますが、どのようにテストするのが適切なのか、さまざまな意見があり、今も議論の中心となっています。また、その実現に必要な技術も発展途上であり、多種多様な手法が提案されています。
こうした状況の中、NTTデータとNIIは、NMF注1を用いてAIの学習済みモデル(以下:モデル)の内部状態から典型的な特徴を推定することで、従来は困難であったモデルにとっての入力データの複雑度を典型的な特徴からの乖離(かいり)として数値化し、さらに複雑度に基づいて、学習に悪影響を与える可能性のある学習データの検出や、モデルの弱点検出のための分析が可能であることを示しました。
この成果により、モデルの頑健性や精度を定量的かつ効率的に評価することが可能になり、モデルの品質向上が期待できます。さらに、これまで利活用が難しかった、教師データのないデータセットを用いたモデルの分析も可能となります。
米国電気電子学会について
米国電気電子学会(以下:IEEE)は1963年に設立された電気・情報工学分野における世界最大規模の学術研究団体で、技術標準化機関でもあります。IEEE AITestはソフトウェア工学に基づくAIのテストに関する革新的な研究開発を行う専門家により構成されたIEEEの国際会議です。このたび、NTTデータとNIIが共同で投稿した論文が、厳正な審査のもと、新規性、重要性、信頼性の点において審査基準を満たしたことを受けて採択され、国際学会での発表となりました。
論文情報
タイトル | Model-based Data-Complexity Estimator for Deep Learning Models |
---|---|
著者 | 尾島優太(NTTデータ)、堀内新吾(NTTデータ)、石川冬樹(NII) |
論文概要 | 深層学習システムが広い領域で使われるようになるにつれ、それらが多様な状況において正しく動作することを事前に検証すること、特に、モデルが想定外の動作を引き起こす可能性がある状況を事前に評価することが重要です。この論文では、モデルにとって想定外のデータを検出するため、データそのものの複雑性ではなく、「モデルにとっての」データの複雑性を評価するための手法を提案します。 提案する手法では、モデルが学習データセットから獲得した主な特徴を非負値行列因子分解で分析し、得られた特徴と個々のデータの特徴の誤差を測定することで、個々のデータの複雑性を推定します。主な特徴の分析にはモデルを学習するために用いた学習データセットのみが必要なので、従来モデルを学習するために用いていた情報以外に必要な情報がなく、特別な準備なく、既存モデルにも適用することが可能です。 実際に推定された複雑性を用いた評価実験により、複雑性により学習データセットの中で不適切なデータを検出できることや、テストデータセットの中からモデルの弱点を効率的に発見できることが確認できました。 この成果を用いることで、従来は活用が困難であった教師なしのデータをモデル分析に用いることができるようになり、モデルの頑健性および精度の向上に寄与すると期待しています。 |
論文書誌情報
名称 2021 IEEE International Conference on Artificial Intelligence Testing(AITest)
発行元 IEEE
発行日 2021/10/14
URL:https://ieeexplore.ieee.org/document/9564363
各機関の役割分担
NTTデータ:研究開発と技術検証
NII:研究指導
注釈
- 注1NMF(Non-negative Matrix Factorization)とは、行列構造のデータを2つの非負値行列の積として近似する最適化手法です。近似により、行方向・列方向のそれぞれについて繰り返し出現する特徴的な構造を抽出することが可能です。
- 記載されている商品名、会社名、団体名は、各社の商標または登録商標です。
本件に関するお問い合わせ先
株式会社NTTデータ
技術開発本部
尾島、堀内、山中
TEL:050-5546-9741
E-mail:rdhkouhou@kits.nttdata.co.jp