dbt Labs / 公式ブログ / 2026/06/08 / 通常

dbt、AI活用で問われるデータモデルと業務定義の重要性を解説

data-platformAIgovernance

公式ブログ原文

公式ブログ原文: dbt Labs Blog: Your AI isn't broken. Your data model is.

dbt Labs は 2026年6月8日、AI活用で回答が揺れる原因を、モデル性能やプロンプトだけでなく、データモデルと業務定義の設計にある問題として解説する公式ブログを公開しました。ゲスト投稿として、phDataのDustin Dorsey氏が、AIを本番業務で使う前に整えるべきデータ基盤の条件を論じています。

要点

AI PoCではうまく見えても、本番利用では質問の範囲が広がり、業務定義の曖昧さが表面化する
問題はデータ品質だけでなく、データが業務プロセスや意味を表す形で設計されているかにある
中央集約されたデータウェアハウスがあっても、意味や指標定義が統一されていなければAIは一貫した回答を返しにくい
dbtのモデル、テスト、ドキュメント、セマンティックレイヤーは、AIが参照する意味をデータレイヤーに埋め込む手段として位置づけられている

今回のブログ記事で語られていること

この記事は、AI活用でよく起きる「PoCではうまくいったのに、本番展開すると同じ質問に違う答えが返る」という問題を、AIモデルの性能だけで説明しない点が重要です。PoCでは、チームがよく理解している領域、整備済みのデータセット、限定された質問、専門家による暗黙の補正がそろっています。そのためAIは、すでに人間が意味を整えた範囲の中でうまく動きます。しかし本番では、ユーザーが複数部門にまたがる質問を投げ、同じ言葉に複数の定義があり、テーブルや指標の関係が明示されていない状態で回答を求めます。

公式ブログが強調しているのは、これは単なるデータ品質の問題ではなく、データ設計の問題だという点です。たとえば「前四半期の売上」は、取引、請求、収益認識、キャンセル、返品、内部振替など、組織や用途によって異なる定義を持ちます。経験豊富なアナリストは、誰が質問しているか、どの定義を使うべきか、どのデータセットが信頼できるかを暗黙に判断します。一方でAIは、その暗黙知を自動的には持ちません。スキーマ、列名、プロンプトから合理的に推測しますが、合理的な推測と業務で合意された答えは同じではありません。

このため、データを一カ所に集めることと、意味を一カ所に集めることは別物だと説明されています。クラウドデータウェアハウスやレイクハウスにデータを統合しても、顧客、売上、解約、アクティブユーザーの定義がテーブルごとに違えば、AIが推論する余地は広がります。人間中心の分析では、会議、経験、ダッシュボードの慣例、チーム内の暗黙知がその曖昧さを補ってきました。しかしAIが回答を自動生成する環境では、その補正をデータ構造自体に埋め込む必要があります。

そこで記事は、ディメンショナルモデリングやプロセス中心のデータモデルを、古いBIの作法ではなく、AI時代の信頼基盤として位置づけています。事実を表すfact、文脈を表すdimension、粒度、関係、業務定義を明確にすると、AIが自由に解釈できる範囲が狭まり、回答の一貫性が高まります。ドキュメントやプロンプトだけでは、参照漏れや個別対応の限界がありますが、モデル化された定義はクエリ時に使われ続けます。dbtは、モデル層、テスト、ドキュメント、セマンティックレイヤーを通じて、この意味の構造化を実装する場所として説明されています。

今回のブログ記事が関係する人

AIエージェントや自然言語分析を、PoCから本番業務へ広げようとしているデータ基盤チーム
dbtで変換モデル、セマンティックモデル、指標定義、ドキュメントを管理している分析エンジニア
AIの回答精度、説明責任、業務指標の一貫性、データガバナンスを気にする管理者

実務で確認したいポイント

売上、顧客、解約、利用状況などの主要指標について、単一の権威あるデータセットと定義があるか
その定義が人の頭やドキュメントだけでなく、dbtモデル、テスト、セマンティックレイヤーなどに実装されているか
AIエージェントが参照するテーブル、ビュー、指標、リレーションが業務プロセスに沿って整理されているか
PoCで使った限定データと、本番ユーザーが質問する実データの曖昧さに差がないか
AIの回答が間違ったときに、モデル、定義、リネージ、データソースまで戻って原因を説明できるか

結局、今回のブログ記事をどう読むべきか

この記事は、AI活用の失敗を「もっと良いモデル」「もっと良いプロンプト」だけで解決しようとする発想への警告として読めます。AIが業務データを使って回答するなら、データレイヤーに業務の意味を明示し、モデル、テスト、ドキュメント、セマンティックレイヤーで一貫性を保つ必要があります。dbtを使うチームにとっては、AI対応とは新しいチャットUIを足すことではなく、既存のデータモデルをAIが迷わず読める形に整えることだと捉えるのがよさそうです。