AIの普及と現在の研究動向
近年、AIが私たちの生活の中に溶け込み多くの分野で活用されています。ご自身の業務でAIモデルを構築した方もいらっしゃると思います。日常生活でもWeb検索や自動翻訳の精度は高まり、自動運転技術は外界の情報を適切に処理し一定のレベルで可能になっています。
現在のAIはアルゴリズムなどの改良が次々と行われ、それを実行するためのハードウエアは高速化、小型化といった進化を続けています。Web上にある大量の文書データを学習に使うなど高い精度の自然言語処理も実現しています。AAAI(※1)という著名なAI関連の国際会議の発表をみると、こうしたAIそのものの性能を高める研究があるなか、人間がよりよくAIを利用できるようにサポートする技術も研究されていることがわかります。その大まかな分類を図1に示します。
図1:AIの研究の分類
図中の原点から始まる矢印は「AIの性能を高める技術」です。特殊な計算を高速化することで、AIの処理速度や予測などの精度を向上させる技術は日々進化しています。自然言語処理のBERT(※2)とその派生技術も、大量のデータを事前学習し特定の業務に合わせた少量のデータで学習し、高い精度で業務文書を処理できます。こうした技術により、文書確認や自動問い合わせ、自動運転など、複雑さや瞬時の処理が必要な分野でもAIが活用されています。
しかしAIの進展が続いても、人間の業務では、AIを思い通りに動かせないことが多々あります。こうした課題を克服するためにAIを利用する人間をサポートする技術も数多く研究されています。
そのひとつは「AIを、納得感を持って安心・安全に使う技術」です。AIの判断根拠がわかりづらい点や、悪意を持ったデータによりAIが誤った学習をする点などが問題視されています。AIの利用が進まない理由の一つがAIを利用する人間の不安です。この不安を取り除くことがこの技術の目的です。
もうひとつは、「AIの処理対象を拡大する技術」です。AIの適用範囲は広くなり、人間の期待も高まっています。しかし、企業内にはAIの学習に都合の良いデータだけが存在しているわけではありません。たとえばAIの学習に十分な量がないデータや学習に必要なラベルがついていないデータといった、AIの学習に不都合なデータをAIが使えるようにしたり、他の企業にあるデータも利用したりすることで、新たなビジネスを創出できるでしょう。人間の期待に合わせてAIの活用範囲をいっそう広げる ことがこれら技術の目的になります。
今回は、上記2つの技術について解説します。
AIを、納得感を持って安心・安全に使う技術
図2:AIを、納得感を持って安心、安全に使う技術
図2の「AIの判断を理解するための技術」には、「説明可能なAI」と「因果推論」があります。この技術の活用が見込まれるのは過去の業務データを収集してAIが処理し一定の判断を下す業務です。たとえば医療の画像診断、金融機関のローン審査、法務文書の問題箇所の抽出などがあります。
これまで人間がしてきた判断をAIがしたとき、「その根拠は?」という疑問が、AIを利用する人間に思い浮かびます。説明可能なAIはそれをサポートする技術です。AIのローンの審査では、年収、借入金額、職業などさまざまな変数を組み合わせ、その可否を判断します。ローンの担当者としてはAIが不可とした理由を把握しておきたいところです。ただ、説明可能なAIは、AIがローン不可とした根拠とした変数の影響度を付けて提示する技術でしかないため、業務の文脈で変数と貢献度の解釈が必要です。ローンが不可となった申込者を可とするためのシミュレーションがしたいのか、これまで不可とすべきだったローン審査の根拠を確認したいのかで、変数の解釈とその利用が大きく変わってきます。説明可能なAIを使いこなすには、その結果を解釈するための業務知識の活用が重要ということです。
さらにAIが判断に利用したデータ項目の因果関係に踏み込む、因果推論も近年活発に研究されています。たとえば、顧客優遇特典の施策の効果を予測する場合などに因果推論は使われています。Uberはどの顧客に対してどのようなメディアでどのような特典を配布することが最も効果が高いかを因果推論で検証しています。(※3)金融分野では勧奨や優遇金利の適用などでの実用が期待されます。
「AIの脆弱性に対抗する技術」もAIを安全に使うための技術です。ここでいうAIの脆弱性とは、AIへの敵対的攻撃に対する脆弱性のことです。人間にはサブリミナル効果(映像や画像に人の肉眼ではわからないようなノイズにより潜在意識に対して一定の影響を及ぼすことができる)があると言われています。AIも同様に、人間の目で見ても誤認識されないノイズのようなデータに影響を受けることがあります。たとえば「停止」の交通標識を「進め」の交通標識にAIに誤認識させるような学習データを、悪意を持って忍び込ませることも起こりえるのです。こうした敵意のあるデータの検出をする敵対的訓練(※4)という技術が研究されています。また、AIが潜在的にもつ脆弱性をチェックする技術も研究されソリューション化されています。(※5)
https://www.jstage.jst.go.jp/article/essfr/15/1/15_37/_pdf/-char/en
AIの処理対象を拡大する技術
AIを構築し利用していると、より大量の教師データを学習させて精度を高めたいという期待が出てきます。新たな機械学習の方式が開発されても、良質で十分な量の教師データが少なければ十分な精度が出ないこともあり、近年では教師データを拡充する技術が研究されています。こうした技術を図3に示します。
図3:AIの処理対象を拡大する技術
社内に存在しているデータには適切なラベルがなくAIでの処理ができないデータも大量に存在します。これに対し機械がラベルを付ける研究が進んでいます。代表的なものは「半教師あり学習」という手法で、少量のラベルの付いたデータの内容をもとに、ラベルありのデータを増やしていく技術です。多くのリソースが投入され、高い精度も出ています。近年ではより進化した手法である「Supervised Contrastive Learning(教師あり対照学習)」が提案され、アンカーという手本になるデータに近いデータに正例のラベルを付け、遠いデータには負例のラベルを付けるという手法が利用されています(※6)。顔認識などにも利用されるほど高い精度を保つ学習ができているという報告もあります。
また多くの企業は自社のデータを使って業務に合ったAIを構築していますが、自社のデータだけでは十分な精度の分類や予測結果を得られない場合も多々あります。たとえば、個人や企業の情報を収集し与信をする際に、単独の企業よりも複数の企業のほうがより多くのデータを集められます。同業他社、他業種を含め多くの企業のデータを利用することで高精度かつ広範囲なAIサービスを提供できるかもしれません。しかし、個人情報の保護や企業競争の観点からも企業間でのデータの共有は困難な状態です。こうした課題を解決する技術としてプライバシー強化技術があります。プライバシー強化技術には、DBや端末内の情報を個別に分析し、分析結果を他と共有する技術、データを暗号化して計算し復号鍵を持つ者だけが分析結果を参照できる技術などがあります。この技術により複数の企業のデータを利用することが可能となります。技術の社会的受容にはさまざまな課題がありますが、今後期待される技術です。
https://proceedings.neurips.cc/paper/2020/hash/d89a66c7c80a29b1bdbab0f2a1a94af8-Abstract.html
人間を含めたシステムとして、AIを社会にフィットさせる
AIの性能は日々向上しています。アルゴリズムの改良やハードウエアの進展、大量のデータ分析などが性能向上に大きく寄与しているでしょう。しかしそうした高性能化するAIに対して、人間が納得し、安全・安心に利用できる技術の貢献も重要です。また、今あるAIの性能に対して、業務の現場で用意できるデータが十分でない場合もあり、それを補う技術も重要です。
金融機関には、顧客の財務状況把握や効率的な販売勧奨など、納得感をもってAIの判断結果を業務に活かしたい場面が多くあります。また、債務不履行や不正送金など、発生頻度がわずかであるため当該ラベルが付いたデータが非常に少ないものについて、ラベル付け学習をする技術を活用することでより多くのリスクを検知することができるでしょう。経済状況急変時の取引先の業績判断など、ごく短期間で特定業種の業績を分析対象とする場合には、複数の金融機関のデータにプライバシー強化技術を使い機密性を保持したまま分析することも期待されます。
そして、これらの技術研究は、人間を含めたシステムとしてどのように社会にフィットさせていくかという大きな課題の解決の一助となるでしょう。NTTデータでは、人間とAIの共存がさらに進んだ、新しいこれからを描いていきます。