従来型データマイニングツールの課題
従来のデータ分析は、分析のモデル構築(分析モデリング)から予測(スコアリング)までを「R」参考1などのデータマイニングツールで実施してきました。これはいわばデスクトップツールの領域であり、対象データをDB(DWH)から抽出して、データマイニングツールが動作する「分析サーバ」上に移動する必要がありました(図)。しかし、分析サーバはDB(DWH)に比べて扱えるデータ量や処理速度に限界がある上、データ移動に時間がかかるため、非効率となることが課題でした。また、全データを使った予測(スコアリング)を実施する場合、分析サーバ上で構築した分析モデルを本番システム上で動作させる必要があり、それには本番システムで使用している言語(C、Java、SQL等)を用いて分析モデルを一からプログラミングし直す(移植する)必要がありました。二重で構築する手間が掛かることや、言語が変わるため結果が完全に一致しない点が課題でした。
PMMLとIn-Databaseアナリティクス
これらの課題を解決する技術として注目されているのが、分析モデルにポータビリティをもたらす「PMML」です。PMML(Predictive Model Markup Language)とは、標準化団体Data Mining Group参考2が策定した、異なるデータマイニング製品間で分析モデルの交換・共有を可能にするXMLベースの言語です。この技術を用いることで、システム環境やベンダの制約に縛られることなく分析モデリングを実施でき、本番環境へのプログラミング移植を省略して、DB(DWH)内でスコアリングが可能になります(図)。分析サイクルの短縮と品質担保の点で大きなメリットを享受できます。
一方、サンプリングを用いない全データでの分析や、より新鮮なデータを取込んだ分析が要求される場合に注目される技術が「In-Databaseアナリティクス」です。In-Databaseアナリティクスは、分析モデリングやスコアリングの処理を、分析サーバではなくDB(DWH)内に閉じて一貫して行うものです(図)。
NTTデータにおける検証
NTTデータでは、ビジネス・インテリジェンス技術を集約したデータ分析方法論「BICLAVIS®」参考3の分析シナリオを対象として、PMMLやIn-Databaseアナリティクスの適用を検証しました。BICLAVISのシナリオ群(PMMLの対象外である最適化やシミュレーション技術関連は除く)に対するPMMLのカバレッジは8割を超えており、非常に高い親和性があることを確認しています。またIn-Databaseアナリティクスは既にお客様システムへの導入を始めており、非常に大きな分析パフォーマンスの向上を実現しています。PMMLとIn-Databaseアナリティクスがデータ分析による企業の競争力強化への動きを一気に加速させるという大きな期待のもと、引き続きビッグデータにおけるキー・テクノロジーとして取り組んでいきます。
参考文献
- 参考1R(外部リンク)
- 参考2Data Mining Group(外部リンク)
- 参考3BICLAVIS
200以上の事例をもとにNTTデータが体系化したデータ分析方法論で、多様な業界分野に適用が可能。
2012年11月29日ニュースリリース