1.はじめに
近年、欧州発の技術動向を伝えるニュースに「データスペース(data space)」という言葉が使われていることにお気づきでしょうか。
例えば、2022年5月には欧州委員会(EC)が「欧州保健データスペース(EHDS)規則案」を公表、パブリックコメントの募集を開始したと報じられました(※1)。あるいは2022年6月には、欧州のエネルギーセクタの企業や大学を中心としたコンソーシアムにより、スマートエネルギー分野でのデータ共有を目的としたデータスペースの実現を目指すプロジェクトである「OMEGA-X」がローンチされたことが報じられています(※2)。
こうした動向の源流を辿っていくと、まずECが2020年2月に公表した「欧州データ戦略」指針(※3)の中で打ち出した「欧州データスペース(European data space)」のビジョン、そしてそれに先行して、2018年4月に同じくECが公表した「共通欧州データスペースに向けて」指針(※4)に行き当たります。
ECにより公表されたこの二つの指針が、欧州でデータスペースを巡る取り組みが政策的に推進される原動力となっているのは確かですが、このデータスペースという言葉が何を意味するのか、特にその技術的な特徴や背景にある技術思想については、必ずしも広く知られているとは言えません。
本稿では、まずこれらEC発の指針についてその背景と意図を抄出し、続いて、データマネジメントに関する研究と議論が、多数の参加者によるデータ共有を実現するデータスペースという概念として結実し具現化するまでの技術潮流を概観します。本稿で紹介した論点が、今後のデータ共有のアーキテクチャを巡る議論の一助となれば幸いです。
https://ec.europa.eu/commission/presscorner/detail/en/ip_21_2083
https://oascities.org/omega-x-press-release-an-energy-data-space-to-boost-the-european-data-economy/
https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:52020DC0066&from=EN
https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:52018DC0232&from=en
2.欧州データスペースの目的
前述の「共通欧州データスペースに向けて」指針では、共通欧州データスペースについて次のように説明されています。
現代のデジタル化社会において、データがイノベーションの源泉になりうることはもはや言を俟ちません。しかし、データを原料としてEUデジタル単一市場(※5)が形成され、欧州の競争力を発展させる原動力となりうるデータ駆動型イノベーションがもたらされるためには、企業間および企業と公共セクタ間のデータ共有をさらに促進する取り組みが必要であること、とりわけ企業間(B2B)の非個人データの共有においては、データを所有権によって縛るのではなく、「契約の自由」の原則に基づき、適切な当事者間の契約上の合意に基づいてデータへのアクセスを認めることが、公正かつ競争的な市場の発展に重要であるとこの指針では示唆されています。
そしてこれに続く「欧州データ戦略」指針ではさらに踏み込んで、欧州データスペースこそが全世界のデータに対して開かれたデータのための単一市場そのものであり、加えてその実現のための投資によって、データ経済を支える技術とインフラストラクチャにおける技術的な主権を欧州にもたらす狙いがあることが表明されています(※6)。
一方で、こうしたデータ経済の実現を阻害する問題もあります。例えばB2Bのデータ共有の場合、その当事者間での信頼の欠如や不正使用への懸念があります。またインフラストラクチャの面では、その技術の供給側となるはずのクラウドプロバイダにおいてEU企業のシェアが低く、その結果、EU市民や企業のデータが、EUのデータ保護規則と相容れない第三国の法律に基づいてアクセスされる懸念もあります。
「欧州データ戦略」指針では、データ市場の推進、欧州の技術的主権の確立、そしてそれらを阻害する問題に対するアクションとして、データ共有のアーキテクチャとガバナンスのメカニズムを含めた共通欧州データスペースの開発を目指す“High Impact”プロジェクトに対して、ECから20億ユーロ、総額で最大60億ユーロの投資を行うこと、さらにこうした分野横断的・水平的(horizontal)なフレームワークの整備に加えて、保健分野やエネルギー分野を含む具体的な9つの戦略分野を対象として分野別データスペースの構築を支援することを表明しています。
そして、こうした取り組みが断片化するのを防ぐため、汎欧州的に展開されるべき既存のデータ共有のイニシアチブとして、「欧州データ戦略」から参照されているのが「Gaia-X」です。Gaia-Xは、欧州データスペースを技術面で支える礎石と言えるでしょう。
EUデジタル単一市場の実現は、EUの政策的優先事項の一つであり、ECでは2015年に「欧州デジタル単一市場戦略」指針が採択されています(COM(2015)192 final)。そこでは施策としてデータ経済の構築が謳われていますが、まだデータスペースという言葉は使われていません。
ここで技術的主権(technological sovereignty)が問題となる背景には、EUにはデータ経済で成功するポテンシャルがあるにも関わらず、米中(の巨大プラットフォーマー)に先行を許しているという危機感があります。
3.欧州データスペースを支えるインフラ:Gaia-X
欧州のデータスペースを技術面で支えるインフラストラクチャを開発する取り組みがGaia-Xです。Gaia-Xは2019年10月にドイツ連邦経済エネルギー省(BMWi)が発表した(※7)、オープンで連邦型(federated)のデータインフラストラクチャの開発と、そのインフラ上におけるデータ交換のエコシステムの形成を狙いとしたプロジェクトですが、その狙いはECが示す欧州データスペースのそれと軌を一にするものであることを当初から表明していました(※8)。
Gaia-Xのデータインフラストラクチャは、その参加者が自律的に、しかし一定のルールに従ってデータ交換を行う連邦型のアーキテクチャに基づきます。これは、クラウドサービスの需要者においてはそのデジタル主権(※9)を、供給者側においてはそのスケーラビリティと市場競争力を強化することを意図してのことであり、欧州データスペースの問題意識と重なる部分が大きいと言えます。
ドイツ政府が提唱したGaia-Xはフランス政府の支持を得、2021年1月に非営利団体「Gaia-X European Association for Data and Cloud AISBL」として正式に組織化され(※10)、汎欧州的なデータスペースを支えるインフラストラクチャの構築に向けて、アーキテクチャの策定、オープンソースによるソフトウェアコンポーネントの開発、参加者間の信頼とサービスの検証可能性を担保するフレームワークの提供、といった技術的な取り組みを推進することになります。
Gaia-Xは、データスペースの創出によるデータ市場の形成とデジタル経済の成長を目的とした取り組みですが、Gaia-Xそれ自身がデータ市場のためのクラウドサービスを提供するわけではなく、市場の運営者になることもありません。あくまで、参加者がGaia-Xのルールや要件に基づいていること認証する「ラベル」を提供するだけで、参加者のネットワークそれぞれがGaia-Xのフレームワークに基づくサービスを運営する、非集中型(※11)のアプローチを取ります。このアプローチに基づき、Gaia-Xの定義するデータスペースで重視されているのは、データはそのデータソースに保存され、どこか中央にあるサーバなどに一元的に保存するのではないこと、そしてデータスペースが機能するには、参加者間の関係醸成をサポートする「データ主権(data sovereignty)」と「トラスト」が不可欠であること(※12)、という原則です。中でも「データ主権」、すなわち「保存・処理されたデータについての完全な制御と、そのデータへのアクセスを誰に許可するかについての自律的な意思決定」(※13)の重視は、EUの政策とも通底する、Gaia-Xの根幹をなすコンセプトです。
これらの原則をデータスペースとして具現化するためのインフラストラクチャの構築、そしてデータエコシステムの実現こそが、Gaia-Xの目指すゴールと言えるでしょう。
https://www.bmwk.de/Redaktion/EN/Publikationen/Digitale-Welt/project-gaia-x.html
https://www.bmwk.de/Redaktion/EN/Publikationen/gaia-x-a-pitch-towards-europe.html
BMWiによるGaia-Xプロジェクトの発表では、「デジタル主権(digital sovereignty)」という用語には明確な定義が与えられています。すなわち「『デジタルシステム自体、そこで生成・保存されるデータ、およびその処理結果の使用と構成』において『国家と組織が自律的な自己決定を行いうる』こと」を指します(前掲※7)。
Gaia-X AISBL設立プロセスの開始は2020年9月。
ここでの「非集中型」は“decentralized”の訳語として用いています。「分散型」では“distributed”と区別がつかず、実際この二つの言葉は混同されがちですが、文脈によっては明確に異なる意味で使われているため、私見では「decentralized=非集中(型)」「distributed=分散(型)」と訳し分けるのが適切と思います。
この「データ主権」の定義については上記※9同様、前掲※7を参照。
4.データスペースの起源と系譜
2022年現在、データスペースという言葉が聞こえてくるのは主に欧州からです。しかしながらデータスペースそれ自体は、EC独自の概念やGaia-Xの発明というわけではなく、言わば前史となる研究がありました。
もともと、データスペースという言葉を特定の概念を指す用語として定義したのはデータマネジメント研究の分野です。米国UCBのFranklinらは、2005年の論文“From Databases to Dataspaces: A New Abstraction for Information Management”(※14)の中で、データスペースを「多数のシステムに散在する多様なデータを、統合するのではなく共在(co-existence)するものとして扱うアプローチ」を示す概念として提唱しました。これ以降、データスペースはアカデミアでは主にリンクトデータや情報検索などの分野と関連する研究対象の一つとなります。なおこの論文は、データスペースに含まれる個々のシステムを「参加者(participant)」と呼び、参加者はそれ自身のデータを自ら管理する(全てのデータを管理する者はいない)、という非集中型のデータマネジメント手法に注目した点、またデータスペース内の参加者およびデータのインベントリとなる「カタログ」の重要性を指摘した点で、その後の展開に繋がる先駆的な研究だったと言えるでしょう。
データスペースという概念が、データマネジメント研究の分野を超えて新しい展開を見せたのは、ドイツFraunhofer研究所によって2015年に開始された研究プロジェクト「Industrial Data Spaces (IDS) initiative」においてでした。このプロジェクトはドイツ連邦教育研究省(BMBF)の支援を受け、産業界のデジタル化と新しいビジネスモデルの創造を支えるプラットフォームの開発を主要なテーマに据えた取り組みですが、その研究の初期に関係者を集めて開催されたワークショップの議論の中で、データが企業にとって戦略的資源となりつつある現在においては、データ主権こそが新しいプラットフォームの中心となるコンセプトであることが確認されます(※15)。そして、さらに続く議論の中で、この新しいプラットフォーム、すなわち「データスペース」についていくつかの重要な論点が見いだされます。
- (1)まず、プラットフォームを採用や使用に導く役割を果たす要素(※16)は「データ主権」であり、そしてその前提となる「トラスト」である、ということ。つまりプラットフォーム参加者の相互信頼を確立して初めてデータ主権が実現し、それがプラットフォームの採用に繋がる、という考え方です。これは、典型的なプラットフォーマーがまずその提供するサービスの価格(無料を含む)を主な訴求ポイントとして普及を図ろうとするのとは対照的です。
- (2)また、プラットフォームがエコシステムとして機能するためのロールとして、「プラットフォーム管理者(platform operator)」や「プラットフォームプロバイダ(platform provider)」といったロールは不要であり、中央にオペレータやプロバイダを置かないピアツーピアネットワークを設計の原則とすること。IDSにおいては、プラットフォームはその中心となるプロバイダによって提供されるものではなく、代わりにデータスペースのリファレンスアーキテクチャモデルを公開することで、複数のデータスペースが併存して実装されることを目指します。
- (3)データスペースのアーキテクチャは、非集中型のデータストレージとメタデータ管理を中心的機能として含むこと。まず、データ主権の観点から、データストレージはデータ所有者の管理下に置かれるべきであり、データ所有者が関知しない第三者によるアクセスについて信頼を担保できない、データレイクのような集中型データストレージのアプローチは取りません。そしてデータそのものに加えて、データの所有者や利用条件、場合によっては利用料金などの情報を含むメタデータが、データ主権の存在を具体化した姿として管理されます。また、メタデータは分散環境において、集中型ストレージに頼らずに異種データベースの自己組織化をうながす点においても重要です(※17)。
こうしたIDS流のデータスペースの概念に基づいて設計されたアーキテクチャは「IDSリファレンスアーキテクチャモデル(IDS-RAM)」として文書化されます(※18)。Fraunhofer研究所のIDSプロジェクトはドイツ産業界を巻き込み、2018年には「International Data Spaces (IDS)」と名を変え、非営利団体「International Data Spaces Association (IDSA)」を組織してデータスペース概念の普及に努めます。
そしてGaia-Xの発表時のドキュメント(※19)にて、IDSリファレンスアーキテクチャこそが「Gaia-Xが目指すオープンで連邦型のインフラストラクチャのコンポーネント」であると明言され、IDSの定義に基づくデータスペースとそのアーキテクチャは、Gaia-X、そして欧州データスペースにも底流として影響力を及ぼす位置を占めるようになったと言えるでしょう。
またIDSのデータスペースは、EUが助成する研究開発プログラムである「Horizon 2020」の採択プロジェクトの一つ、産業分野でDXの実装を推進する「OPEN DEI」プロジェクトにおいてもデータスペースの設計基準として採用される(※20)など、Gaia-X以外にもその影響力を広げつつあります。
図:データスペースに関連する動向
プラットフォーム研究の分野で“regulatory instruments”と呼ばれる、プラットフォームへのアクセスを規定する価格以外の要素。
このデータマネジメントに関する議論において、前掲※14のFranklinらによるデータスペースの研究が参照されています。
International Data Spaces Association. 2022. IDS Reference Architecture Model (Version 4.1). International Data Spaces Association.
前掲※7。
5.データスペースの今後
以上、欧州データスペースの政策的背景、そしてデータスペースがその萌芽となる研究から、IDSリファレンスアーキテクチャモデルとして確立され、データ単一市場を実現するデータ主権やトラストの座となるまでの流れを概観してきました。欧州におけるデータスペースの構築を目指したさまざまな取り組みはまだ始まったばかりですが、政策的なバックボーンもあり、これから具体的な成果となって現れてくることが予想されます。
一部にはGaia-Xの官僚的な運営体制が意思決定を遅らせ、プロジェクトの前進を阻害しているという指摘もあります(※21)。そのような批判を受けてしまう一因として、Gaia-Xも含め、欧州データスペースが実現したいものの姿や目指しているゴールがわかりにくく(中には、Gaia-XのことをGAFAMに対抗しうるクラウドプラットフォームを構築する試みだと誤解した向きもあるようです)、具体的な成果物をイメージするのが難しかった面があるのは否定できません。
一方で、IDSAやGaia-Xの提唱した概念に基づき、具体的なデータスペースの構築に資するためのオープンソースプロジェクトとして開発されているソフトウェアについては、その進歩の過程を実際のソースコードで確認することができますし、もちろん自分でデータスペースを構築するための部品として活用することも可能です。例えばEclipse Foundationの傘下で開発されているEclipse Dataspace Connector(※22)はその一例です。こうしたオープンソースソフトウェアを活用してデータスペースのPoCに取り組んでみるのもまた理解の一助となることでしょう。
データスペースという考え方の基礎にある、データの非集中的な管理により実現されるデータ主権とトラストが社会にもたらす価値は、欧州固有の政策的取り組みの範囲を超え、欧州同様に巨大なプラットフォーマーを持たない、米中以外の国々にとっても示唆的なものがあると思われます。より議論が進むことを期待しつつ、本稿を終えたいと思います。
POLITICO, Inside Gaia-X: How chaos and infighting are killing Europe’s grand cloud project, https://www.politico.eu/article/chaos-and-infighting-are-killing-europes-grand-cloud-project/ (2021)
Gaia-X European Association for Data and Cloud AISBL, Four myths about Gaia-X, The Gaia-X magazine, Ed. 1, https://gaia-x.eu/wp-content/uploads/2022/06/Gaia-x_Magazine_June-2022-Issue_1f.pdf (2022)
NTT DATAのデータスペースに関する詳細はこちら:
https://www.nttdata.com/jp/ja/services/dataspace/
“a seamless digital area with the scale that will enable the development of new products and services based on data.”
(“データに基づく新しい製品やサービスの開発を可能にする、[欧州]規模のシームレスなデジタル領域”)