Hex / 公式ブログ / 2026/06/09 / 通常

Hex、Fable評価のために新しい分析エージェント評価基盤を構築

dataAI

公式ブログ原文

公式ブログ原文: We had to build new evals for Fable

Hex は 2026年6月9日、Claude Fable 5 を分析エージェント用途で評価するため、新しい評価を作る必要があったと説明する記事を公開しました。なお記事内では、2026年6月12日に Anthropic が Fable 5 を無効化したため、現時点で Hex では利用できないという注記も置かれています。

要点

Hex は Fable 5 を、複雑で壊れた現実的なデータウェアハウス環境での分析推論に強いモデルとして評価しています。
既存評価では差が出にくくなり、より難しい分析ベンチマークを作る必要があったと説明しています。
評価対象には、セマンティックモデルで答えられる質問、モデル外の生データを使う質問、前提発見が必要な難問が含まれます。
Fable 5 は、分析中の仮定を明示し、セマンティックな根拠とSQL結果を照合する流れで改善が見られたとされています。
モデル性能だけでなく、プロンプト、評価ハーネス、文脈ストア、レビュー可能性まで含めて見る必要があります。

今回のブログ記事で語られていること

この記事は、単に新しいモデルを褒める記事ではなく、データ分析エージェントの評価がどこまで難しくなっているかを示す記事です。Hexは、Fable 5 が自社の標準的な分析評価で高い成績を出し、特に複雑で現実的なデータ環境での分析推論に大きな改善を感じたと説明しています。具体的には、Analytical Hard、Semantically Modeled、Semantically Unmodeled といった評価セットが示され、セマンティックモデルで答えられる質問だけでなく、生データや複数の文脈を組み合わせないと答えられない質問も対象になっています。

読みどころは、Hexが「モデルが良くなった」だけで済ませていない点です。記事では、短いタスクでは高い推論努力が過剰な見直しを生み、かえって性能が下がる場合があると述べています。一方で、セマンティックモデルだけでは答えられない難しいタスクでは、Fable 5 が前提を置き、必要なデータを探索し、結果をセマンティックな根拠と照合する「望ましい分析の流れ」に近づいたと説明しています。これは、モデル評価を単純な正答率だけで見る危うさを示しています。

分析エージェントでは、正解らしい数字を出すことと、正しい分析をすることは別です。どのテーブルを使ったのか、指標定義をどう解釈したのか、例外値やデータの癖に気づいたのか、SQL結果を既存のセマンティックモデルと照らし合わせたのかが重要になります。Hexの記事では、Fable 5 が仮定を説明し、別定義も提示するような振る舞いに触れており、これは業務利用での信頼性に直結します。

ただし、記事末尾の注記が示すように、モデルの提供状況は変わり得ます。Fable 5 は記事公開後に利用できなくなっているため、この記事は「今すぐFableを使うべき」という導入案内としてではなく、次世代モデルが来たときに分析エージェントをどう評価すべきかという評価設計の教材として読むのが安全です。

実務で確認したいこと

データチームは、自社のAI分析エージェント評価が、簡単なSQL生成や既知KPIの再現だけに偏っていないかを確認してください。実務で問題になるのは、曖昧な要求、壊れたデータ、例外処理、セマンティックモデル外の探索、前提の説明です。

また、モデル更新時には同じ評価セットだけでなく、より難しい評価を追加する必要があります。既存評価が天井に近づくと、モデル間の差が見えなくなり、実務上の改善を見落とす可能性があります。

今回のブログ記事が関係する人

関係するのは、HexでAI分析を使うデータチーム、分析エージェントの評価を設計する機械学習・AI基盤担当、モデル更新時の品質確認を担うプロダクト担当です。特に、自然言語分析の正確性を業務利用レベルで確認したい組織に向いています。

結局、今回のブログ記事をどう読むべきか

Hexの記事は、分析エージェントの品質評価を「正答率」から「分析として信頼できる作業過程」へ広げる必要性を示しています。Fable 5 の提供状況に関係なく、複雑なデータ環境でエージェントを使う組織は、セマンティックモデル、生データ探索、仮定の説明、結果の照合を含む評価を整えるべきです。