背景と概要
データレイクという概念は、PentahoのCTOであるJames Dixonが2010年頃に提唱しました参考1。ビッグデータ時代の到来により、センサー、モバイル、SNSやウェブログ、さらには画像や音声など、データ分析の対象が従来の範囲を超える半構造・非構造化データに拡大し、そのボリュームも膨大になっています。従来はデータ分析の要件にもとづき、あらかじめデータ構造を設計し、集計・蓄積していましたが(データマート)、多種・大量のデータを機動的に活用することが求められる近年では、あらかじめ分析の観点(質問)を網羅しておくことはほぼ不可能であるため、生み出されたデータはそのままの形で蓄積し、データを活用するときに必要な構造で取り出せるようにするというのが、データレイクの基本的な考え方です。
Dixonは、従来のデータマートは「人が飲みやすいようにボトル詰めされている水」、データレイクは「水源から常に水が流れ込み、人々が自由に入って採水できる池」に例えています参考2。
図:データマートとデータレイクの比較
データレイクを実現する技術
データレイクの具体的な実現方法は、特定の製品・ソフトウエアからクラウドサービスまでさまざまに提唱されていますが、その中でも主流は、Hadoopエコシステムを活用した方法です。データ蓄積は分散ファイルシステムであるHDFS(Hadoop Distributed File System)が担い、HadoopやSparkなどの分散処理基盤による大量データ分析の他、TableauなどのBIツールによるデータのビジュアル化や、データマートへのデータロード、Elasticsearchなどの検索エンジンによる非定型検索など、多様なデータ活用が可能です。
また、よりシンプルな例として、Amazon Web ServicesにおけるS3のような廉価なストレージサービス上に大量データを蓄積していく仕組みを「データレイク」と称するケースもあります。
データレイクの活用
データレイクはビッグデータ活用のために有効なアプローチですが、ビジネスでの活用を十分に考慮しないままIT部門主導での基盤構築そのものが目的になってしまい、手当たり次第にデータを貯めていくだけで、誰からも使われない「データの沼地」となってしまうケースが散見されます参考3。蓄積データを活用するために必要となるメタデータ(データの意味を説明するデータ)の整備や、業務部門とIT部門とが一体となって新たなデータ活用のシナリオを検討し蓄積すべきデータを見定める取り組みを、並行して立上げることが重要です。
NTTデータでは、お客さまのアナリティクス実現に向け、データ活用アーキテクチャの検討からデータ分析のトライアル、システム導入まで一気通貫でのサービスを提供しています参考4。