スマートフォン、スマートウォッチ、AIスピーカー・・・音声をインターフェースとする端末がここ数年のうちにぐんと増えました。大人だけでなくキーボードのタイピングが難しい子供や高齢者も含め、誰でも使えるインターフェースとしてその地位が確立されつつあります。
このような音声認識技術を活用したサービスの急激な発展には、技術の進歩が大きく関係しています。
2010年台の初頭ごろ深層学習手法が確立し、音声認識の世界でも、ディープニューラルネットワーク(※1)による処理方式を採用することで飛躍的に認識精度が向上したのです。音声認識技術を扱う各社がこぞってこの処理方式に移行、音声認識技術活用の各サービスの実用化がぐっと現実的になりました。
音声認識技術というと、テキスト化を想像される方が多いと思いますが、単なるテキスト化から検知(センシング)にその領域を広げています。喜怒哀楽や満足不満足といった感情や発話者の性別・年齢等の属性を推定することも可能となり、それらに対応するユースケースも多くの企業で競い合うように発展しています。
それら技術の活用のシーンとしては、先に述べた個人がスマートフォン等に語りかけることで使用者の意図をインプットする対話サービスが一般的ですが、ビジネスにおける活用シーンにおいては、ここ数年で企業内のコールセンターでの採用が大きく進みました。
コールセンターを主要な顧客接点チャネルに位置づける企業を中心に、これまでは音声データのみで保存されていたお客様とコールセンターのオペレーターの会話の全文をテキスト化することで業務効率化や業績向上に役立てています。
コールセンターでは、FAQ等のナレッジ検索やオペレーターの通話品質のモニタリングにそれら音声認識技術が活用されています。お客様からの電話をオペレーターに代わってAIが対応するという、自動応答への活用試行も徐々に開始されています。
コールセンターにおける音声認識技術の活用による課題解決の例をご紹介します。
コールセンターではオペレーターの採用難や離職率の増加による慢性的な人員不足という課題を抱えています。時にはクレーム対応等も発生するコールセンターの現場において、新人オペレーターのサポートは重要な業務の一つであり、音声認識技術を活用しサポート業務を支援することも可能です。
サポート業務を行う管理者が配下の各オペレーターの発話テキストをリアルタイムに確認、見守ることで、必要な局面で、素早くサポートすることが可能になります。
また、これらテキスト化された会話データはマーケティング部門や商品企画部門に連携されることにより、各部門の担当者が生のお客様の声に触れることが可能となります。
テキスト化されたお客様との会話、そのお客様の属性や契約状況、購買履歴や他の接点チャネルにおける履歴情報と組み合わせることにより、それぞれのお客様にマッチしたOne to Oneのご提案、更にはカスタマージャーニー(※2)設計が可能となります。
NTTデータでは、NTT研究所の音声認識技術を活用したコールセンター向けソリューションCustomer Engagement Hub?を提供しています。(※3)
図:会話情報をマーケティング・プロモーションに活用
ここまではコールセンターでの活用シーンを中心にお話してまいりましたが、今後は、技術の発展と歩調を合わせる形で、コールセンター以外の企業間や社内での電話、対面での打ち合わせシーンでの活用等、多方面での音声認識技術の実用化が進むと考えられます。
また、コールセンターをはじめとした顧客接点においては、音声から取得するテキスト、感情等の情報と過去の顧客との会話や属性等の分析結果の両方を踏まえた、よりヒューマンライクな自動顧客対応の実用化が進むと考えられます。
NTTデータではこれらに活用される技術やソリューションを研究開発、提供してまいります。