Snowflake のロゴ

Snowflake / 公式ブログ / 2026/06/03 / 重要

Snowflake、SQLとWeb検索をまたぐ企業エージェント評価ベンチマーク HybridDeepResearch を公開

AIdata

公式ブログ原文

Snowflake は 2026年6月3日、企業エージェントがSQLデータとWeb検索・文書情報をまたいで正しく推論できるかを測る HybridDeepResearch を公開しました。

要点

  • HybridDeepResearch は、SQLと非構造情報の両方を使う企業向け深掘り調査タスクの評価です。
  • SQLだけ、検索だけではなく、両者の制約を引き継ぐハンドオフが評価対象です。
  • ArcticSwarm などのエージェントアーキテクチャ評価にも使われています。
  • 企業AIでは、単一ツールの性能より、ツール間の制約保持が重要になります。

今回のブログ記事で語られていること

今回の記事は、企業AIエージェントの評価が単一モダリティに偏っているという問題から始まります。現実の業務では、ユーザーの問いに答えるために、データウェアハウス内の構造化データと、ニュース、文書、Webページ、社内資料のような非構造情報を組み合わせる必要があります。たとえば、社内の取引データから重要な仕入先を特定し、その企業が外部ニュースで港湾ストライキの影響を受けているかを調べる、といった問いです。

HybridDeepResearch が重視するのは、SQLと検索の間で制約を正しく引き継げるかです。記事では、SQLで正しい企業を特定したのに、検索時に一般的なキーワードへ流れて別企業の記事を拾う失敗、検索で見つけた企業名をSQLの厳密な条件へ落とし込めない失敗、SQL側の候補集合と検索側の結果の交差を取らずに片方だけで答えてしまう失敗が例示されています。これらは企業エージェントで起きやすい実務的な失敗です。

ベンチマークの設計では、データベース内のエンティティを起点に、SQL制約とテキスト証拠の両方が必要なタスクを作ります。片方だけで解ける問題や、曖昧なエンティティ、答えが漏れている問題を除外し、SQLと検索の結合が本当に必要なタスクを残すという説明です。これは、エージェント評価を単なるスコア競争ではなく、どこで失敗したかを診断する道具にする発想です。

実務上、この発表はデータエージェントの評価方法を考えるうえで重要です。企業のAIエージェントは、SQL生成ができるだけでも、Web検索ができるだけでも不十分です。部門データ、契約、ニュース、規制情報、社内ナレッジを横断するときに、制約、根拠、引用、交差検証を保てるかを評価する必要があります。

今回のブログ記事が関係する人

  • snowflake をすでに利用しており、今回の内容が運用、開発、分析、データ連携にどう影響するかを確認したいチーム
  • AI・データ基盤の選定や導入計画を進めており、公式ブログの背景や実務上の読み方を整理したい担当者
  • セキュリティ、ガバナンス、監査、コスト、サポート体制など、発表内容を本番運用の判断材料に落とし込みたい管理者

実務で確認したいポイント

自社でAIエージェントを評価する場合、SQL単体の正答率だけでなく、検索結果や文書証拠との突き合わせを含むテストを作ってください。特に、エンティティ名、期間、地域、顧客セグメントの制約がツール間で落ちないかを確認すべきです。

結局、今回のブログ記事をどう読むべきか

HybridDeepResearch は、Snowflakeが企業エージェントを「複数の情報源を正しくつなぐシステム」として評価しようとしていることを示します。AIエージェント導入では、モデル単体よりもオーケストレーションの信頼性が重要になります。