1.NTTデータが取り組む社会DTC(デジタルツインコンピューティング)基盤について
これまでのデジタルツイン(現実空間にあるモノをデジタル空間上に再現する技術)は対象となるモノがそれぞれ別々に分かれたデジタル空間上で処理されていました。当社が取り組む社会DTC基盤は、図1のように都市空間の全情報を共通のデジタル空間上に構築し、都市空間のあらゆる情報をデジタル化し、デジタル空間上で様々なシミュレーションをすることで、全体のプロセスを最適化しているシステム基盤です。
図1:社会DTC基盤上での分析・最適化プロセスのイメージ図
2.人の動きなど道路周辺情報を収集する必要性と課題
社会DTC基盤の主たる適用対象の一つが都市です。都市全体をデジタル空間上に構築するためには、街中の人の行動などの道路周辺情報を収集することが欠かせません。例えば、店舗を需要の高い区画に配置したい場合、時間帯別の人数や交通量、人の移動軌跡(駅と商業施設どちらに向かっているか、イベントなどで留まっているかなど)、交通手段(歩行、自転車、自動車など)、街中の風景(きらびやかな街並みか、簡素な街並みか)といった情報は、出店計画を策定する上で有益な情報となります。また、道路の劣化状況などのインフラ点検を行うためには、対象物の詳細な映像情報が有益な情報となります。
このように街中の情報を収集することで様々な分析ができるようになりますが、それは容易なことではありません。街中の情報を収集する手段として、衛星写真や固定カメラ(監視カメラなど)、車載カメラといったものが挙げられますが、それぞれメリット、デメリットがあります。
衛星写真では広域情報を取得することが可能ですが、50cmよりも小さな物体は認識できないなど、細部の情報収集には限界があります。
一方、固定カメラや車載カメラは衛星写真では取れないような詳細な情報を取得することが可能ですが、広域情報を取得することは難しいです。固定カメラは範囲が固定されており、街全体をカバーするように固定カメラを無数に設置することは現実的ではありません。車載カメラであれば移動させながら収集することが可能ですが、映像内のモノの位置を把握するにはカメラ自体の位置も正確に把握する必要があります。しかしながら、一般的に車載カメラなどの移動するデバイスの位置情報はGPSで取得されますが、GPSには誤差が最大20mあることが知られており、特に高層ビルが並ぶような都市ではより大きな誤差が生じます。
3.地図上の建物と映像内の建物をマッチング
これらの課題解決のためには、複数のデータを組み合わせることでそれぞれの長所を活用することが考えられます。しかしながら複数のデータを組み合わせるためには、これらデータの同一部分をマッチングする必要があり、このマッチングにも位置誤差などの課題があります。そこで当社ではこのマッチング実現のための課題解決に取り組みました。このマッチングが実現出来れば、地図上の建物の実際の映像を取得したり、図2のように建物周辺にあるモノを観測したりと、都市全体にわたって情報収集することが可能になります。
具体的な施策としては、図3のように車載カメラ(ドライブレコーダー)とGPSセンサ、衛星写真から生成された地図情報を用いて、地図上の建物と映像内の建物をマッチングする技術を構築しました。今回、衛星写真からは建物の高さ情報を含む地図データが得られることを仮定して進めました。こういったデータは2.5D地図と呼ばれ、当社サービスであるAW3D(※2)など、商用としてデータ提供されています。
図2:映像内の建物がどこにあるか認識することで、建物周辺のモノを観測
図3:地図と画像の建物をマッチングすることで、衛星写真では取得が難しい詳細な情報を取得
本技術の処理フローを図4に示します。GPS情報のみから地図上の建物を投影した場合、左図のように映像内の建物位置と大きく乖離していることが確認されました。このような乖離が生じていると、映像内のモノを認識できていたとしても、実際の位置とは異なる位置にあると認識されるため、その後の分析に悪影響を与える可能性があります。そこでマッチング技術を用い、GPSから得られた位置を補正しながら、映像上に投影した地図側の建物(図中の色のある領域)が映像側の建物と合致するようにしました。図4:本技術の概要図
実際に本技術を用いた例を図5に示します。ベースラインであるGPS情報のみから地図上の建物を映像上に投影した時と比べ、地図と映像の建物同士がより正確にマッチングできていることが確認できました。
図5:本技術の実施例
最後に本技術の工夫した点について説明します。以下2点になります。
工夫点1.建物のエッジを検出するために深層学習を利用
地図と画像の建物をマッチングさせるためには、一般的に建物の辺(エッジ)が合うようにカメラの位置を補正します。しかし、実世界には建物以外に様々なモノが混在し、これまでの画像処理技術では、映像内の建物のエッジをうまく認識することができませんでした。そこで本研究では、建物のエッジを検出する深層学習モデルを構築することで、標識のポールや建物のベランダなどの誤認識しやすいモノが混在していても、エッジのみを検出するようにしました。
工夫点2.マッチング時に2.5D地図の建物の高さ情報を活用
建物が密集しているようなところでは、工夫点1で述べた建物のエッジが数多く存在し、どのエッジに合わせるかを決めるのが難しくなります。そこで本研究では画像から認識された建物の高さと地図情報の建物の高さが合うようにマッチングしました。
このような工夫をすることで、先の実施例のように、比較的安価なセンサのみを用いて地図と画像の建物をマッチングすることができました。なお、本手法は国際学会SIGSPATIAL2021(※3)に採択されました。
このように街中の情報を効率的に収集する技術を開発しながら、これら技術で得られるデータを組み合わせて社会全体の最適化を図ることができるような社会DTC基盤の実現を目指していきます。