Databricks のロゴ

Databricks / リリースノート / 2026/05/27 / 重要

Databricks、Google Drive connector Betaとserverless notebook timeout設定を追加

dataworkflowgovernance

公式リリースノート

Databricks は 2026年5月27日付の May 2026 platform release notes に、Lakeflow Connect の Google Drive managed ingestion connector Beta と、serverless notebook execution timeout を workspace admin settings から管理できる更新を追加しました。ファイル取り込みと serverless notebook 統制の両方に関わるため、data engineering team と platform admin が確認すべき更新です。

要点

  • Google Drive managed ingestion connector が Beta になった
  • unstructured binary files と CSV、JSON、XML、Excel、Parquet、Avro、ORC などの structured files を取り込める
  • file metadata ingestion もサポート対象として示されている
  • workspace admin が serverless notebook execution timeout の default を admin settings で設定できるようになった
  • notebook ごとの spark.databricks.execution.timeout override は引き続き利用できる

今回のリリースノートで語られていること

今回の 2026年5月27日更新で、Databricks は Google Drive connector in Lakeflow Connect を Beta として公開しました。Google Drive から Databricks に file data を取り込む managed connector で、binary files のような unstructured data と、CSV、JSON、XML、Excel、Parquet、Avro、ORC などの structured files の両方が対象です。さらに file metadata ingestion もサポートされるため、単にファイル本文を取り込むだけでなく、ファイルの属性や管理情報を data pipeline 側で扱う余地があります。

Google Drive は business users が日常的に使う file workspace であり、分析チームにとっては spreadsheet、export、manual report、contract document、operational file が集まりやすい場所です。managed ingestion connector が入ることで、個別 script や手動 upload に頼っていた Drive 由来データを Lakeflow Connect の運用に寄せられる可能性があります。ただし、Drive は所有者、共有範囲、フォルダ構造、ファイル命名、権限継承が複雑になりがちです。取り込み対象を広げる前に、どの folder / file type / owner / sharing state を対象にするのかを決める必要があります。

同じ日付で、serverless notebook execution timeout の workspace admin setting も追加されています。これまでは手動 override に寄っていた default execution timeout を、workspace admin settings の Compute 配下、Serverless interactive execution timeout setting から管理できるようになったと説明されています。default は 2.5 hours で、個別 notebook では spark.databricks.execution.timeout による override が残ります。

この変更は、serverless notebooks の cost control と runaway workload prevention に直結します。分析者が長時間 notebook を動かす環境では、timeout が短すぎると正当な処理が落ち、長すぎると不要な実行や overspend につながります。workspace default と notebook override の両方を許す設計なので、admin は標準値を決めたうえで、例外をどう申請・review するかを運用に入れるべきです。

Google Drive connector と serverless timeout は、一方が ingestion、一方が compute governance です。しかし実務では、Drive から取り込んだファイルを notebook で探索・変換する流れが自然に発生します。取り込み元の権限、metadata、file freshness と、serverless notebook の実行時間、cost、override rule を合わせて設計することが重要です。

対象になりそうなチーム

  • Google Drive 上の業務ファイルを Databricks に取り込みたい data engineering / analytics team
  • Lakeflow Connect の connector rollout と権限設計を管理する platform team
  • serverless notebook の実行時間、cost、利用ポリシーを管理する workspace admin

実務で確認したいポイント

Google Drive connector では、対象 folder、file type、metadata、権限、owner 変更時の扱いを決めてください。業務ユーザーが自由に置く Drive files をそのまま production pipeline に入れると、schema drift、重複、アクセス権の揺れが起きやすくなります。

Serverless notebook timeout では、workspace default をどの程度にするか、long-running exploration を許す条件、override の review 方法を決めます。Cost alert や job / notebook monitoring と組み合わせ、長時間実行が本当に必要な workload かを見えるようにするのが現実的です。

結局、この更新をどう見るべきか

2026年5月27日の Databricks 更新は、business file ingestion と serverless notebook governance を同時に前進させるものです。便利な connector と実行制御を別々に見るのではなく、Drive 由来データを誰が、どこまで、どのコストで処理するかという運用設計として読むべきです。