競技空間を丸ごとリアルタイムに体感
パブリックビューイングの新提案
───2016年2月18日と19日に開催された「NTT R&Dフォーラム2016」では、空手演舞(協力:公益財団法人 全日本空手道連盟)の中継がイマーシブテレプレゼンス技術「Kirari!」という技術を使ってデモンストレーションされましたが、浮かび上がる疑似3D映像と迫力のある音が、あたかも目の前で競技が行われているようでした。
木下 会場でご覧いただいた方のご意見を聞くと、本当に目の前に人がいるかのように見えたという声が多いですね。プロスポーツや音楽や伝統芸能などのエンターテインメント分野の方に、実際に使ってみたいという問い合わせをたくさんいただき、すでにトライアルとして取り組んでいるものもあります。
NTTサービスエボリューション研究所 ナチュラルコミュニケーションプロジェクト 主任研究員 木下康儀氏(左)、同 井元麻衣子氏(右)
───イマーシブテレプレゼンス(※1)技術Kirari!は、どのような体制で研究開発が進んでいるのですか。
木下 新しいソフトウェアサービスを実現するために必要となる革新的な技術の研究開発を進めているサービスエボリューション研究所(EV研)の1プロジェクトです。メンバーは30 〜40人ほど。各技術を研究しているグループもいれば、プロデュースという形で事業化に向けた活動をするグループもいます。
───プロジェクトの構想が立ち上がった時期を教えてください。
井元 2014年12月に今のプロジェクトが生まれ、ほぼ同時期にKirari!のコンセプトが生まれています。私はその当時からのメンバーです。初めてデモンストレーションをしたのが、翌年2月のNTT R&Dフォーラム2015(※2)でした。
───Kirari!は、どんなことを目的に開発された技術なのでしょうか。
井元 昨今ワールドカップやオリンピックといった大きなスポーツの大会では、各地でパブリックビューイングが催されています。高精細化の映像を大型画面に映し出すという方向もありますが、複数の技術を組み合わせて臨場感を高める別の方法があるのではないか、という着想を得ました。
木下 臨場感を高めるために、擬似3D映像を表示する装置など、世の中にある技術と自分たちで開発するメディア処理、符号化、メディア伝送などの新しい技術を組み合わせています。
ステージに置かれた卓球台とオーバーレイ(重ねて投写)するかたちで、二人の卓球選手とボールの動きを再現した、Kirari!のコンセプトモデル。ピンポン球の移動につれて音場も移動し、実際に目の前で行われている試合を鑑賞する感覚になる。
映像と音声に関する技術が集合
───具体的にはどんな技術の集合なのでしょうか。
木下 まずは「任意背景リアルタイム被写体抽出技術」です。背景がクロマキー(※3)スクリーンではないような状況でも、動いている選手だけをリアルタイムで切り出すための技術になります。
───人体の熱だったり、センサーからの距離だったり、それらのデータを全部組み合わせているのですね。
井元 必ずしもそうではありません。あまり背景が変わらない環境ならセンサーは使わず、単純に背景との差分だけで選手を切り出せますから。
木下 実際の競技会場を想定すると、観客席の人が動いたり、後ろで風が吹くと木が揺れたりという状況があるので、そういう時にはセンサー等を使ってうまく被写体を特定できるように取り組んでいるところです。
サッカー競技会場のように横長のフィールドをワイド画面で表示したい時に使うのが「超ワイド合成技術」です。複数台の4Kカメラで競技場全体を分割して撮り、リアルタイムにつなぎ合わせ、高精細なワイド映像を作成するものです。
それによって180度のパノラマ映像を表示したり、16対9を超えた非常にワイドな、自分が包まれているかのような映像表示が可能になります。
井元 私たちが「超高臨場感メディア同期技術」と呼ぶのがAdvanced MMTです。MMT(※4)は次世代放送向けに標準化されており、別々のストリームで送った映像音声のデータを、絶対時刻を元に同期して伝送する技術です。
───臨場感のある音声を集音・再生する技術もKirari!には含まれますね。
木下 大きな大会で大歓声が沸き起こっている中ですと、競技の音がかき消されてしまうということがあると思いますが、そんな中でもきちんと競技の音だけを集音する技術が「選択型音響集音技術」です。
その他、映像を高品位で符号化するための「高精細映像符号化技術」(H.265/HEVC)や、音声を高品位で符号化するための「ロスレス音声符号化技術」(MPEG4-ALS)(※5)なども使われています。
Kirari!とは、被写体映像を抽出する技術、映像や音声と一緒に空間的な情報を同期・伝送する技術、仮想的な音源を臨場感高く定位させる技術など、NTT研究所で取り組んでいるイマーシブテレプレゼンス技術の総称。
───データが遠隔に配信された後、プレゼンテーションする際に使われるのはどんな技術ですか。
木下 「高臨場音像定位技術」を使います。例えば、女性アナウンサーが喋っている映像があったとして、彼女の口元から本当に音が聞こえるかのように超音波スピーカーで仮想的に音源を定位させるといった技術です。
場所に応じた見せ方を考えている
───今後に向けた課題があれば教えてください。
木下 課題の一つとしては、被写体抽出技術の精度向上が挙げられます。今は背景が変わらない状況や、少人数を切り出すという条件でリアルタイムな抽出ができていますが、いろいろな競技に広げていくことを考えると、もう少し複雑な背景や人数が多い状況でも切り出せなくてはいけません。また、臨場感を高めるには、きれいに切り出すことだけではなく、切り出した映像と同期をしてリアルタイムに影をつけるなど、映像の後処理などによる演出も重要です。
───切り出せる大きさについてはどうでしょう。
井元 さまざまな競技に幅広く対応したいという思いがありますし、卓球のように選手と卓球台を含めて全体がステージに収まるサイズの競技でしたら、そのまま切り出すこともありえます。
画像中央の選手が、遠隔で空手の演舞を披露している。人物の影や音が効果的に使われ、あたかも目の前に実在するような印象を与える。
ただ、競技場全体を切り出すのはさすがにできませんし、ステージで再現しようとしてもリアルなサイズで映し切れません。サッカーや野球など競技エリアが広いスポーツでは、例えばピッチャーだけを切り出して等身大で表示するとか、特定の選手をピックアップするなど、どのような演出にすると臨場感が高まるのか、検討していく必要があります。
───これからの目標はなんですか。
木下 もちろん2020年は目標としてあるのですが、一過性のイベントだけではなく、実際のビジネスで使ってもらえるシステムに仕立てていきたいと思っています。
───現状は大型システムのKirari!が、例えば一般の家庭とか、少し大きめの公共空間などに入っていける可能性はあるのでしょうか。
木下 場所に応じた見せ方はあるのではないかと思っています。
例えば、スポーツカフェやスポーツバーといった大型のステージを組めないような場所でも、ワイド映像の技術を使って壁一面でご覧いただく。このような場所に応じた新しいスポーツ観戦スタイル(※6)を、検討しているところです。
こうした新しい技術を使って、どのような表現方法があるのか。メディアアーティストなどと組んで、使っていただきながら、Kirari!の価値を創造していきたいと考えています。
遠隔地にネットワークを介して、リアルタイムに競技空間やライブ空間を「丸ごと」伝送、再現をめざす技術。
クロマキーとは、特定の色情報を持つ領域を他の画像で置き換える手法のこと
Mpeg Media Transportの略称。インターネット、専用線、携帯電話網、無線LAN、放送まで、さまざまな伝送路に対応する次世代メディア伝達技術。
スタジオ編集などでも使える高音質のマルチチャネルオーディオ信号を扱うことができる、ロスレス圧縮方式。MPEG-4オーディオ (MPEG-4 Part 3) の一部として規格化。
NTTグループでは、サッカーの大宮アルディージャのホームスタジアムであるNACK5スタジアム大宮のスマートスタジアム化に着手。NTTデータも参画し先進技術を使った新たな映像サービスと観戦スタイルの提供を目的に、Kirari! for Mobileやスマホ・タブレットへの映像配信などの最先端技術を生かしたイベントを検討している。
高臨場の映像と音声をVRで再現
360°VR映像に施された工夫
───NTTメディアインテリジェンス研究所の画像メディアプロジェクトでは、どんな研究が行われているのでしょう。
山本 私たちは、映像メディア処理技術、映像メディア符号化技術、高臨場映像通信技術の研究開発に取り組んでいます。画像メディアに関わる革新的な要素技術を確立し、オープンイノベーションとの組み合せで魅力ある新たなサービスを創出するのが目的です。
NTTメディアインテリジェンス研究所 画像メディアプロジェクト 高臨場映像通信技術グループ 主任研究員 山本 奏氏
───高臨場映像通信技術グループでどのようなことに取り組まれているのですか。
山本 あたかもその場に参加しているような「存在感」や「場の共有」「自由な視点移動」を実現するため、全天球映像音響配信、VRスポーツトレーニング、自由視点映像合成など高臨場通信技術の研究開発に取り組んでいます
───世間でVRが一般的な認知を獲得したのはここ数年のことだと思いますが、かなり以前から研究に取り組んでいるのでしょうか。
山本 私たちのグループでは、以前からVRに限定せず広く「臨場感の高い映像をいかにして伝送し再現するか」の研究に取り組んできました。例えば、遠隔地にある会議を丸ごと伝送して見せたり、ある部屋の空間をこちらに伝送してそのまま再現したりといった目的です。
最近のヘッドマウントディスプレイ(※1)を用いるVRが普及してきたタイミングに合わせ、それまで開発してきた技術を適応させたのが「全天球映像音響インタラクティブ視聴技術(360°VRライブ)」のモデルです。
ヘッドマウントディスプレイを掛けたときに表示される360°映像と360°の撮影に使うカメラ。360°映像は視線を向けた中央部分に高精細なものが表示される。カメラは市販のカメラを複数台組み合わせて制作。
───これは何をめざして開発された技術ですか。
山本 遠隔地で催されるスポーツイベントやコンサート、あるいは観光地へ旅行に行けない人たちが、全世界どこでもネットワークを介して、高臨場に没入感のある体験ができる未来をめざして開発を進めています。
───従来のVR技術と比べて異なる点、進化した点はどこですか。
山本 全天球映像をいかに効率良く配信するかを工夫しています。全方位360°を撮影した映像はデータ量が大きく、例えば4K解像度の全天球映像をリアルタイムに臨場感高く配信するには携帯電話の回線では全然足りません。それを5分の1くらいのデータ量に抑えることができれば、携帯の回線も十分に使えます。
その方法として、ヘッドマウントディスプレイで視線を向けた方向をできるだけ高画質に配信し、見ていない方向は少し低画質の映像を配信するようにします。見ていない方向を低画質で配信するのは、いきなり後ろを向いた時にタイムラグで映像が見えなくなると没入感が削がれてしまうので、高画質な映像が届くまでは低画質な映像を表示できるようにするためです。
また、音に関しても工夫があり、複数のマイクを用いて集音した音を方向別に強調・分離する技術を取り入れることで、見ている方向に応じた「バイノーラル音」を精度よく合成することができます。
───今後はどのようなステップを考えているのでしょう。
山本 将来的にはスペックを上げて画質を向上させるのが第一です。カメラやヘッドマウントディスプレイなど、NTTだけで開発できないものは、パートナー企業などとオープンイノベーションで一緒に連携してやれたらいいですね。
ただし、360°VRライブがもたらすUX(ユーザー体験)の価値は、そのままだとどこかで頭打ちになるとも思っていますから、単にスペックを追いかけるだけでなく、もっとユーザー体験を豊かに感じさせられる技術の開発にも手を広げていきたいです。
スポーツ選手と視線を共有する
───実際には立てないプロ野球の試合のバッターボックスにも立ててしまう「VRスポーツトレーニング」のシステムは、迫力あるスポーツ観戦にも応用できそうです。これは何をめざして開発された技術ですか。
高橋 あくまで私たちの研究の主眼はスポーツの強化にありますが、センシングデータを利用した仮想視点の映像を作り出す映像合成技術の発展にもつながります。加えて、スポーツのトレーニングに役立つ映像を考えることは、人間の視覚や、身体の仕組みにまで踏み込める技術だと思っています。
NTTメディアインテリジェンス研究所 画像メディアプロジェクト 高臨場映像通信技術グループ 高橋康輔氏
───トレーニングに役立てられるほどの臨場感があるVRは、従来の技術と、どこが異なり、どのように使われているのでしょう。
高橋 実在の投手が投げたボールなどを忠実に再現することにモチベーションを持って取り組んでいます。さらに実写とCGを上手く組み合わせた手法に技術的な工夫があると自認しています。
ヘッドマウントディスプレイを装着し、バッターボックスに立ってプロ投手の投球を体感。視覚情報からのトレーニングや迫力のあるスポーツ鑑賞に役立てられる技術は、今後、映像のフレームレートが上げられればリアルさが増しそうだ。
高橋 今回作ったVRのシステムは野球が題材でしたが、例えば、テニスのサーブとリターンや、サッカーのフリーキックやPKのように、他のスポーツにも適用できると考えています。ただ、VRは扱いが難しい技術で、適応しようとする目的に応じて、アプローチの方法がまるで変わってくるんです。
例えば、サッカーで激しく選手が入り乱れるシーンとか、アメフトでスクラムを組むようなシーンなど、大勢の人がランダムに動くものに適用しようとすると、かなり異なるタイプの技術革新が必要となると考えています。
───スポーツ観戦に応用しても、迫力のある体験ができそうです。今後、この技術を使ったステップを、どのように考えていますか。
高橋 いろんな方に技術を使ってもらいながら効果を確認し、どんどんブラッシュアップして、実際に現場で使ってもらえるレベルにまで仕上げるのが当面の目標です。実際のスポーツチームと一緒に研究に取り組めたら良いなと希望しています。
もう1つは少し長いスパンの目標ですが、先ほど申し上げた、選手が入り乱れるような複雑なシーンにも適用できるようになることです。カメラの他に深度や距離を測るデプスセンサー(※2)などの性能向上も影響してくると思います。
それらのデータを取れるようになった上で、どのようなアルゴリズムで画像処理を行うかも難しい点です。この研究はかなり歴史が長いのですが、有効な解決策が見つかっていません。我々の画像処理研究に加えて、選手・チームが強化に使えるようにする、という切り口で必要な機能、品質を見極めることで、何とか新しいブレイクスルーを生み出していきたいと思っています。
頭部に装着し、両眼で覗き込んで没入感を体感するディスプレイ。視線を向けた方向に映像が追従するヘッドトラッキング機能を持つ。HMDという略称やVRヘッドセットの名称で呼ばれることもある。ブームの火付け役となった「オキュラス・リフト(Oculus Rift)」は2012年にプロトタイプを公開、14年にFacebookに買収された後、16年3月に一般向けに発売された。
通常のカメラに備わる測距センサーは赤外線や光によるTOF(三点測距方式)で被写体までの距離を測る。2010年、マイクロソフトがゲーム専用機Xbox360向けに発売したカメラ型操作デバイス「Kinect(キネクト)」は、安価ながら縦横奥行きの三次元が計測できるデプスセンサーを備え、研究者がこぞって利用。VRの応用研究が大きく発展した。