1.AIによる防犯カメラモニタリングへの期待の高まり
オフィスビル、マンション、大規模商業施設などには監視カメラが設置されており、警備センターでは人手によるモニタリングやAIを用いた映像解析の活用によって、迷惑行為や危険行動などがないか常に監視を続けています。大規模な施設ほど監視すべき範囲は広く、必然的にカメラ台数は多くなってしまいます。その結果、人手によるモニタリングは煩雑になり、こうした大規模施設では、映像解析AIによるモニタリング業務の支援に期待が高まっています。
2.一般的な映像解析AIの落とし穴とその対策
これまでの一般的な映像解析AIは、入力データが「映像のみ」に限定されているものが一般的です。AIを人間の脳に例えると「視覚のみ」を使って迷惑行為などを検出していることに相当するのですが、この「映像のみ(視覚のみ)」という制約によって、一般的な映像解析AIでは原理的に検出ができない迷惑行為が存在することが、お客様などへのヒアリングを通じてわかってきました。
NTTデータでは、こうした制約を無くし、映像のみならず音などの別の情報も取り入れることでより高度な判断を可能とするAIである、マルチモーダルAIの開発に取り組んでいます。マルチモーダルAIの適用範囲は広く、これまでに、統合的な判断が要求される「審査業務」(※1)や、人間とモノとの複雑なインタラクションの理解が要求されるCOVID-19対策を想定した「オフィス内行動監視」(※2)に適用してきました。マルチモーダルAIは、防犯・セキュリティ用途へも適用可能であり、例えば、マンションなどの共用空間での迷惑行為を検出する業務では、マルチモーダルAIを使うことで、「寝込む」といった映像だけで判定できる行為はもちろん「集団で騒がしくたむろしている」など、音が関わる迷惑行為までも検出が可能になります。(図1)
このように、従来のAIでは判別が困難だった行為もマルチモーダルAIを用いることで判別が容易となり、監視業務の支援範囲を広げることができます。
図1:マルチモーダルAIの活用により検出できる行為の種類が増える
3.マルチモーダルAI技術を活用した行動認識技術による防犯・セキュリティの高度化
先に述べた入力が「映像のみ」に限定される一般的なAIは、「シングルモーダル」AIと呼ぶことができます。入力が限定されていることから、AIで実現できるタスクも限定されてしまいます。
一方で、マルチモーダルAIの「モーダル」という言葉はAIへの入力情報の種類(映像、音、テキストなど)を意味し、「マルチモーダル」AIとは、様々な種類の入力情報を利用するAIのことを指します(※3)。
マルチモーダルAIは、AIで実現したいことに応じて、判断に必要となる複数のモーダルを入力として加えることができるため、柔軟にカスタマイズすることで様々なタスクに活用できます。(図2)
人間が五感を使い分けながら高度な判断を行っているのと同様に、マルチモーダルAIは複数のモーダルを用いて統合判断を行う仕組みを備えたものであり、人間の思考方法に着想を得た新しいアプローチのAIであるといえるでしょう。
図2:シングルモーダルAIとマルチモーダルAIの違い
図3は、マルチモーダルAIを活用して実際のビルエントランスで迷惑行為を検出させた事例です。この事例では、音が関わる迷惑行為も検出できるように、入力に監視カメラの映像と騒音計の音量を加えました。映像のみを用いるシングルモーダルAIでは、走っている人を適切に「走っている」と検出できていますが、大声でたむろしている人については、「座っている」としか検出できていません。一方で、マルチモーダルAIでは、どちらも適切な検出ができています。
図3:防犯・セキュリティ用途でのマルチモーダルAIの優位性の例
元々は人のコミュニケーションにおいて用いられる言語や身振り・手振りなどの様々な情報伝達手段を意味する「マルチモーダル」という言葉に由来しています。
4.最後に
NTTデータでは、次世代のAIは人間のように認識し思考する方向へと進むと考えており、マルチモーダルAIはその領域に斬り込む1つの重要な技術として位置付けています。今回ご紹介した適用事例が示すように、従来のAIでは判別困難な認識対象も、マルチモーダルAIであれば適切な認識が可能となるケースは他にも多く存在すると考えられます。今後は、このような柔軟な性質を活用して、行動認識の適用先の拡充に加え、これ以外の領域にも適用範囲を拡大していきます。