NTT DATA

DATA INSIGHT

NTT DATAの「知見」と「先見」を社会へ届けるメディア

キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
2025.4.1業界トレンド/展望

さらなるデータ民主化の実現へーdbtで実現するAI時代のデータ基盤

現代のデジタル社会において、市場変化や顧客動向を現場で迅速に把握し、ニーズに対応するために、「データ民主化」を推進する企業が増えている。しかし、データ民主化に向けた取り組みには、課題を感じる企業も少なくない。
本稿では、これまでのデータ民主化に向けた取り組みとそこで発生する課題を踏まえ、データ変換ツール「dbt(data build tool)」が実現するデータ民主化の側面について詳しく掘り下げる。現代のデータ民主化実現に重要な取り組みを紹介し、これからのAI時代においても活用され続けるデータ基盤を整備するために何が必要なのか考える。
目次

1.これまでのデータ民主化に向けた取り組み

現代のデジタル社会では、市場の変化や顧客の動向を捉える力が企業の競争力を左右します。先進的な企業は「データ民主化」を推進し、データに基づいた迅速かつ正確な意思決定を通じ競争力を高めています。本稿においてデータ民主化とは、企業内の多くの従業員がデータを活用できるようにする文化やその取り組みを指しています。

データ民主化実現に向けた取り組みの例としては、以下が挙げられます:

  • データレイクの導入
    財務情報、顧客情報、WebやIoT機器からのログ等、さまざまな種類のデータをそのままの形で一元管理することで、迅速なデータアクセスや部門間でのデータ共有を容易にする。
  • データカタログの導入
    データの所在や意味を理解するためのメタデータを管理し、カタログとして提供することで、ユーザが自身で必要なデータを発見できるようにする。
  • ETLツールやデータプレパレーションツールの導入
    データの整備や準備にかかるコストを軽減するために、GUIを備えたツールを導入して、ユーザが自らデータレイクからデータを抽出し、データ準備を行えるようにする。

一方で、データ民主化の取り組みには次のような課題が発生することがあります:

  • データ整備が不十分
    単純に収集しただけのデータは、ビジネス的な背景の理解が乏しく、また活用しやすい状態で整備されていないため、扱いが難しく追加整備が必要となり、結果として活用に時間がかかる。
  • メタデータの整備不足
    メタデータが分析しやすい形に整備されていないため、活用に必要なビジネス的な情報が不足し、メタデータの活用が困難になる。
  • 標準化されていない複雑なデータ整備
    従来のGUIツールは独自の操作性や複雑な運用性が求められることも多く、スパゲッティ化したデータパイプラインが作られてしまう。

2.dbtが右肩上がりの成長を示す理由

dbt(data build tool)は、データ整備のプロセスで主な価値を発揮する、モダンデータスタックを代表する製品の一つです。この製品は2016年よりdbt Labs社から提供され、多くの企業で広く利用されており、右肩上がりの成長を続けています。

図1:dbtプロジェクト数の推移(モデル数別)

dbtのOSS版製品である「dbt Core」は、SQL/Pythonベースでのデータ加工をサポートしているELTツールです。
dbt Coreには以下の特徴があります:

  • シンプルで標準化されたデータ加工
    製品特有の高度な知識が不要で、基本的なSQLまたはPythonのコーディングでデータ加工が可能です。これによりコードベースでのデータ加工の良さを維持しつつ、ELTツールの機能(容易なデータ加工や実行制御機能など)を利用できます。
  • ソフトウェアエンジニアリングのようなデータ整備体験
    ソフトウェアエンジニアリングのベストプラクティス(例:テスト、バージョン管理、CI/CD)をデータ整備に取り入れています。これにより、迅速かつ高品質なデータ整備が容易になります。
  • 整備されたデータに対するドキュメント
    ソースデータから分析用途に至るすべてのデータに関するメタデータ管理を行い、一種のデータカタログとしての機能を提供します。これにより、テーブルのリネージを含むドキュメントが自動で生成され、データの所在、意味、起源を容易に把握できるようになります。

これらを通じて、ユーザ自らがデータ整備を行う「アナリティクスエンジニアリング」という新しいアプローチが広がりつつあります。

上述の通り、dbt Coreは非常に強力なツールですが、一方でいくつかの課題も存在します:

  • ユーザにとってハードルの高いデータ加工
    dbt Coreでのデータ加工は、SQLまたはPythonのコードベースであるからこそ標準化されていますが、一方でそれらの言語に詳しくないユーザには難しいものです。これにより、データ民主化に直接的に寄与するとは言い難いものとなっています。
  • 不十分なセマンティック情報
    dbt Coreには意味的(セマンティック)な情報が表現できません。そのため、ユーザがデータだけを見て独自に分析を進めることが困難です。また、高度なユーザが独自に解釈して作成されたデータ加工ロジックが乱立し、ビジネス上重要な指標等が分散されて実装されてしまうことがあります。

3.dbt Cloudが実現するデータ民主化

dbt Coreの機能をベースとしたSaaS版のdbt Cloudは、2018年に登場し、絶え間なく機能を強化してきました。特に近年、データ民主化を実現する新機能が数多く追加され、単なる「dbt CoreのSaaS版」を超える価値を提供しています。本稿では、その一部の機能を紹介します。

  • dbt Semantic Layer
    データ分析には、データだけでなくセマンティックな情報も重要です。dbtのセマンティックレイヤは、分析の指標(メトリクス)や軸(ディメンション)をガイドし、ユーザが利用できるようにします。定義したメトリクスやディメンションは、BIツールやカタログツールを通じて分析に利用できます。これにより、正確で一貫したメトリクスを共有しつつデータ分析を行えるようになります。
  • dbt Explorer
    ドキュメント機能によるメタデータ管理に加え、dbt自体が提供する各種メタデータを活用したデータの品質や性能、さらにはセマンティックレイヤの情報といった、データを利用するために必要な情報をビジュアル化します。これにより、必要な情報を視覚的に把握しやすくなります。
  • Visual Editor(※2025年4月時点でプライベートベータ)
    専門知識がなくてもデータ加工を行えるGUI機能です。dbtの特徴であるSQL/Pythonによる標準化されたコード管理の利点を損なわないよう、dbt上のGUIでの作業内容が自動的にコード化され、コードでの作業内容もGUIに変換できます。これにより、dbt上でコードベースでのデータ加工の良さを維持しつつ、直感的にデータ加工を行えるようになります。

dbt Cloudが実現するデータ民主化には、2つの重要なステップがあると筆者らは考えています。

1つ目のステップはセマンティックの整備です。データを活用して最もベネフィットを得るのは、ユーザです。しかし、すべてのユーザにデータだけを見てさまざまなことを把握させるのは困難なため、事前にセマンティックレイヤでデータの意味までエンジニアリングすることが重要です。これにより、データに詳しくないユーザも、セマンティックを理解しながら利用することができ、分析ツールによらず一貫した分析結果に基づいたインサイトを得られるようになります。

図2:セマンティックの整備による効果のイメージ図

2つ目のステップはアナリティクスエンジニアリングの提供範囲の拡大です。データ活用の一連の流れの中で、データ整備にかかる時間は約8割程度を占めると言われています。このデータ整備のプロセスをより多くのユーザに迅速に行ってもらうためには、dbtが広く受け入れられた要因であるアナリティクスエンジニアリングによるデータ整備体験が重要です。dbtはVisual EditorによるGUI機能を提供することで、アナリティクスエンジニアリングの良さをより多くのユーザに展開しようとしています。

図3:アナリティクスエンジニアリングの提供範囲の拡大による効果のイメージ図

モダンなデータ整備体験をセマンティック整備まで拡充すること、そしてそれをコードに詳しくないユーザにも提供すること。これらはdbtがめざし、提案している現代のデータ民主化と言えるでしょう。その世界観の実現は着実に近づいています。ではさらに次の時代に目を向けてみましょう。AIがエンタープライズでより使われるようになった世界のデータ基盤はどうなっていくのでしょうか。

4.これからのAI時代のデータ民主化に向けて

データ民主化はこれまでさまざまな試行錯誤を経て、今もなおdbtのようなモダンなツールによって進化を続けています。そのうえで、AI/GenAIがより一般的になっていく近い将来において、データ民主化は新たなステップに入っていくことになるでしょう。

LLMによる自然言語での分析を考えると、ユーザに必要なのは通常の日本語能力だけとなり、GenAIの存在はある種究極のデータ民主化になりえます。しかし、正しいデータがないところに問いをかけても、AIが正しい答えを返すことはありません。正しいデータを整備することは、AI時代でも大きな価値を持ち続けます。

一方で、データの消費者が人間ではなくAIになった場合、求められる整備の仕方が変わってくることは間違いありません。例えば非構造化データの整備の重要性は一気に高まってくるでしょう。もちろんデータ整備自体もAIによってサポートされていくことになります。dbtも「dbt Copilot」といったデータ整備自体を加速するAI機能を実装しつつあります。

いずれにせよ、ビジネスの構造をモデル化し、そのデータを意思決定に生かすというデータ基盤の本質的な価値は変わりません。本稿で述べてきたようなデータやそのセマンティックを整備することは、AIに対してデータの使い方の補助線を引くことになります。これらの整備はAIが自律的に働くようになればなるほど、その働きを人間がコントロールするために必須の取り組みになっていきます。dbtの考え方、方向性、セマンティックレイヤをはじめとする具体的な機能は、このAI時代にさらに必要とされていくのではないでしょうか。

進化するテクノロジーを最大限に取り入れながら、データ整備を継続的に地道に続けていくことが、AI時代においてもデータ民主化への一番の近道なのかもしれません。

The next step for analytics engineering innovation | dbt Labs についてはこちら:
https://www.getdbt.com/blog/analytics-engineering-next-step-forwards

データマート開発を迅速、大規模に行える「dbt cloud」の導入・構築・活用支援サービスを提供開始
~Modern Data Stackのコアソリューション企業としてdbt Labs社とパートナー契約~についてはこちら:
https://www.nttdata.com/global/ja/news/topics/2023/101901/

データ活用領域のトレンド「Modern Data Stack」に関するホワイトペーパーを公開についてはこちら:
https://www.nttdata.com/global/ja/news/topics/2023/101900/

記事の内容に関するご依頼やご相談は、こちらからお問い合わせください。

お問い合わせ