Databricks のロゴ

Databricks / 公式ブログ / 2026/06/10 / 重要

Databricks storage ecosystem、移動できないデータをガバナンス対象にする

dataセキュリティAI

公式ブログ原文

Databricksは公式ブログで、OpenSharingを基盤にしたDatabricks storage ecosystemを発表しました。オンプレミス、プライベートクラウド、エッジ環境に残るデータをコピーせずにDatabricksから扱い、Unity Catalogのもとでガバナンスすることを狙う内容です。

要点

  • Databricks storage ecosystemは、オンプレミスやハイブリッド環境のストレージをDatabricksへ接続する新しいパートナー領域として発表された
  • 中核にはOpenSharingがあり、ストレージパートナーがOpenSharingサーバーを実装することで、Databricks Serverless Computeからデータをコピーせずに参照する
  • MinIOは一般提供、Everpureは限定プレビュー、Qumuloは2026年7月の限定プレビュー、VAST Dataは2026年8月の限定プレビューとして紹介されている
  • Databricksは今後、Cohesity、Commvault、HPE、NetApp、Nutanix、Rubrikなどの統合も予定している

今回のブログ記事で語られていること

今回のDatabricks公式ブログは、企業データをすべてクラウドへ移すという前提が現実に合わなくなっている、という問題意識から始まります。半導体メーカーの機密性が高い設計データ、金融機関の大量の履歴ティックデータ、データ主権や規制の制約を受ける銀行や医療、製薬の大規模実験データ、通信事業者の低遅延なネットワークテレメトリなど、クラウドへ移せない、または移すべきではないデータは多く残っています。Databricksはこの状況を、すべてを移行する時代から、すべてをガバナンスする時代への変化として説明しています。

発表の中心にあるDatabricks Software-Defined Storage Ecosystemは、こうしたオンプレミス、プライベートクラウド、エッジ環境のデータを、Databricks Data Intelligence Platformから扱えるようにするパートナーエコシステムです。仕組みとしては、ストレージパートナーがOpenSharingサーバーを立て、Unity Catalogに接続し、Databricks Serverless Computeからデータへ安全にアクセスする流れが示されています。データを複製したり移行したりせずに、Serverless Compute、Genie、AgentBricks、モデル学習などからオンプレミスデータを利用できるという主張です。

この発表で重要なのは、ストレージ連携を単なるコネクター追加として読まないことです。狙いは、データの所在を変えずに、ガバナンス、権限管理、AI利用、分析処理をDatabricks側の体験へ接続することにあります。OpenSharingは安全でガバナンスされたデータ共有のためのオープンソースプロトコルとして位置づけられ、Unity Catalogと組み合わせることで、ハイブリッド環境全体を一つのカタログで扱う構想が示されています。これは、AIや分析のために大規模データを動かすコスト、データ主権、規制対応、低遅延要件に直面している企業にとって大きな意味があります。

パートナーの状況も具体的に示されています。MinIO AIStorは一般提供として、オンプレミスのApache IcebergやDeltaテーブルをUnity Catalogのガバナンス下で問い合わせられるようにする例として紹介されています。Everpureはデータ複製を避けるOpenSharingコネクターを限定プレビューとして示し、QumuloはNeuralSearchとOpenSharingを組み合わせて、構造化データと非構造化データの発見や共有につなげる方向を示しています。VAST Dataは、AIインフラがハイブリッド化する流れの中で、オンプレミスとクラウドにまたがるデータをDatabricksワークフローへ接続するものとして紹介されています。

今後の焦点は、非構造化データです。記事では、現時点の発表が主に構造化・表形式データを対象にしている一方で、画像、PDF、動画、医療画像、工学シミュレーション、バックアップアーカイブなどを生成AIやRAG、モデル調整へ使う可能性が語られています。DatabricksはOpenSharingにVolumes APIを拡張し、オンプレミスストレージ上の非構造化ファイルをGenAIワークロードへ直接公開する方向にも触れています。これは、バックアップやアーカイブとして眠っていたデータを、ガバナンスされたAI資産に変える構想として読めます。

今回のブログ記事が関係する人

オンプレミスやハイブリッド環境に大規模データを持つデータ基盤担当者、Unity Catalogやセキュリティを管理するプラットフォームチーム、AI活用のためにデータ移行コストやデータ主権を気にしているチームに関係します。金融、医療、製造、通信、公共領域のように、データを簡単にクラウドへ移せない組織では特に重要です。

実務で確認したいポイント

まず、自社に「移せないデータ」がどれだけあるかを棚卸ししてください。規制、契約、遅延、費用、データ量、機密区分のどれが理由で移せないのかによって、検討すべき接続方式は変わります。次に、対象ストレージがMinIO、Everpure、Qumulo、VAST Data、または今後予定されているパートナーに該当するかを確認します。

導入を検討する場合は、OpenSharingエンドポイントの管理者、Unity Catalog上の権限設計、Serverless Computeからのアクセス範囲、監査ログ、データの所有者、障害時の切り分けを事前に決める必要があります。データをコピーしない設計でも、アクセス権やクエリ負荷、メタデータ管理、コスト配分の設計が不要になるわけではありません。むしろ、オンプレミスとクラウドの境界をまたぐため、責任分担を明確にしておくことが重要です。

結局、今回のブログ記事をどう読むべきか

この発表は、Databricksがハイブリッドデータ環境をAIと分析の対象に取り込もうとしているサインです。クラウド移行を前提にできない企業にとっては、データを動かさずにガバナンスし、分析し、Genieやモデル学習へつなぐ選択肢が広がります。一方で、実務ではパートナー対応状況、プレビュー段階の違い、権限、監査、性能、責任分担を確認しなければなりません。この記事は、オンプレミスデータを「取り残されたデータ」ではなく、ガバナンスされたAI-readyな資産として扱うための発表として読むべきです。