2020.1.14技術トレンド／展望

VR空間における感情表現

VR（仮想現実）技術を活用する上で、利用者の感情を分析し、表現する手法が強い関心を集めている。VR空間で利用者はアバター（CGで表現された仮想的な人）として表現されるが、アバター上に利用者の感情を表現することができれば、VR空間でのコミュニケーションの質的向上とともに人とシステム間のインターフェイスの高度化につながるからである。利用者の感情をアバター上で表現するためには様々な手法があるが、本稿では感情を測定し、分類/定量化を行い、アバター上で表現するという手法を紹介する。

感情表現の用途

感情の分析と表現が有用な利用シーンの多くは、コミュニケーションに関するものです。コミュニケーションでは言葉以外の多くの手段（表情、ジェスチャー等）が用いられます（※1）。手段の多くは見た目に密接に関連するため、アバターが感情を正確に表現することはより良い相互理解を助けます。さらにそれはビジネスにおける協力や効率性を高めることにも繋がるでしょう（※2）。また、ユーザーの感情はVR空間において入力手段としても利用可能です。このように感情などの入力情報に基づいて様々な操作ができるインターフェイスがVRにおけるヒューマンマシンインターフェイス（HMI）として注目されています（※3）。

感情の測定

感情を測定する方法には、低レベルの脳波（EEG）や心電（ECG）の測定から、表情の分析、瞳孔反応、音声分析等多くの方法があります。そして、最先端のVRデバイスのなかには、それらを測定する機能が備わっているものがあります（※4）。

私たちはほとんどのVRデバイスで利用可能な音声分析に注目しています。音声分析には、音声をテキストへ変換して取得できる文章の内容と、言語に依存しないピッチ（速さ）、強度、スペクトル勾配（高さ）などさまざまな音声特性の両方が含まれます。これらの情報をそのまま、もしくはニューラルネットワークなどにより分析することで感情の状態を数値化することができます。

感情の分類と定量化

取得されたデータをもとに感情を分類し、定量化するためのさまざまな手法があります。最も有名なものはポールエクマンのモデルでしょう。このモデルでは感情を怒り、嫌悪、恐怖、幸福、悲しみ、驚きという6種類な基本的な感情に分類します。他の理論の多くは、ポジティブ（好ましい、好意的）とネガティブ（好ましくない、嫌悪）な側面（感情価）とその強さという二つの特性を利用します。感情を感情価とその強さで表現することで、より複雑な感情状態を表すことができます。

文章の内容とさまざまな音声特性を分析することで、VR利用者の感情を分析することができます（※5）。

より抽象的な感情（納得、疑問、不信等）の分析はビジネス的により有用ですが、その実現にはより多くの分析データの収集とルールの作成による手法の確立が必要でしょう。

感情表現

VR内のユーザーの感情的な状態を表す方法として、アイコンなどを利用したシンプルなステータスバーによる表現と、よりリアルなブレンドシェイプの2つがよく使用されます。ブレンドシェイプとは、1つの感情を表す表情と別の感情を表す表情を合成することで表情を自然に変化させる手法を意味します。この方法はアバターの表現でよく使用され、以前はCGによる映画撮影等で利用されていましたが、現在はVRなどで求められるリアルタイムな生成が可能になっています。ブレンドシェイプを利用することで、感情の状態に応じた顔の表情を表すことができ、ユーザーの感情状態が変化すると、表情を少しづつ変化させ、より生き生きとした感情の変化の視覚的表現が可能となります。

図1：ステータスバーによる表示（左はAIエージェントの例）

NTTデータが開発中のVR会議システムは、上記2つの手法によりユーザーの感情状態を表示します。システムは感情状態のリアルタイム更新を提供するために、コグニティブAI技術を利用しています。現時点では市販されているVRヘッドセットで利用可能な入力方法に焦点を当てており、主に音声から感情価とその強さという2つの値を決定します。そして、分析結果は2つの方法で表示されます。一つ目は簡単なステータスバー形式のもので、ユーザーの感情がアバターの上に吹き出しの形で表示されます。ポジティブ/ネガティブがそれぞれ別の色で表示され、同時に感情の強さが数字およびバーの長さにより表示され、すべての会議参加者と共有されます。

さらにブレンドシェイプ技術によりリアルタイムで顔の表情を生成します。VR会議システムでは、利用者の登録時に一枚の顔写真からユーザーの全身のアバターを生成するとともに、ユーザーの表情を変更するために必要なすべての情報を事前に用意します。その際にアバターごとにポジティブ/ネガティブからなる2つの感情状態に合わせた表情を生成します。そしてシステムの実行時にコグニティブAIシステムが分析した結果にあわせて、ブレンドシェイプ技術を利用し、ある表情から別の表情に自然に顔を変化することを可能としています。

図2：ブレンドシェイプ技術による表情の変化

VR会議システムには利用者を支援するAIエージェント技術が実装されています。利用者はAIエージェントに音声で指示を行うことで、検索、表示、退室等さまざまな機能を利用することができます。現時点でユーザーの感情状態は、これらの指示内容の処理結果には影響していません。しかし、将来的には利用者の感情の状態に応じて処理を変更することも可能でしょう。例えば、処理の結果に利用者が満足しているのか、不満を持っているのかなどにより利用者の特性を理解し、それに合わせた処理を行うことは利用者とAIエージェント間のコミュニケーションをより高度にするはずです。

VR空間内において感情を表現することは重要ですが、ARやVRのインターフェイスの可能性を考えると、こうした技術のさらに興味深い側面は、ユーザーとシステムとのより高度な相互作用を実現できる可能性を秘めているということが言えるでしょう。

VR技術は現実の世界をコピー、もしくは模倣しようとすることが多いため、仮想世界内における感情の表現は今後も注目を集めると思われます。

※1

https://ja.wikipedia.org/wiki/%E9%9D%9E%E8%A8%80%E8%AA%9E%E3%82%B3%E3%83%9F%E3%83%A5%E3%83%8B%E3%82%B1%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3

※2

https://medium.com/vutoken/why-is-affective-computing-important-emotional-states-other-uses-2767c39e6192

※3

https://www.bbvaopenmind.com/en/technology/digital-world/what-is-affective-computing/

※4

https://www.researchgate.net/publication/327603825_Affective_computing_in_virtual_reality_emotion_recognition_from_brain_and_heartbeat_dynamics_using_wearable_sensors

※5

https://towardsdatascience.com/speech-emotion-recognition-with-convolution-neural-network-1e6bb7130ce3