Alibaba / Qwen / 公式ブログ / 2026/05/21 / 重要

Qwen3.7-Max 発表、agent 時代の coding・office workflow 向け基盤モデルへ

AIdevapi

公式ブログ原文

公式ブログ原文: Qwen3.7: The Agent Frontier

Alibaba Cloud Community は 2026年5月21日、Qwen3.7-Max をエージェント era 向けの新しい proprietary モデルとして紹介しました。コーディングエージェント、office ワークフロー automation、MCP 連携、長時間自律実行を前面に出した発表です。

要点

Qwen3.7-Max はエージェント era を意識した Qwen の新モデルとして発表された
コーディングエージェント、office productivity、multi-エージェント orchestration、MCP 連携が主な対象
35時間・1,000 tool call 超の kernel optimization run など、長時間自律実行の例が示された
Claude Code、OpenClaw、Qwen Code など複数 scaffold での利用を意識している

今回のブログ記事で語られていること

この記事は、Qwen3.7-Max を「賢いチャットモデル」ではなく、エージェントの中核モデルとして紹介しています。発表の中心にあるのは、コードを書く、デバッグする、複数ファイルをまたいで変更する、MCP 経由でツールを使う、長い task を分割して進める、といった agentic ワークフローです。ブログでは、frontend prototyping から複雑な software engineering までのコーディングエージェント、office productivity やワークフロー automation、multi-エージェント orchestration、そして数百から千回以上の tool call を含む長時間実行が強調されています。

興味深いのは、Qwen3.7-Max が特定の実行環境に閉じたモデルとして語られていない点です。Claude Code、OpenClaw、Qwen Code など、複数のエージェント scaffold で安定して動くことが価値として挙げられています。これは、モデルの評価軸が単発プロンプトの正答率から、tool use、リポジトリ context、長い推論、失敗からの復旧、外部環境とのやり取りへ移っていることを示しています。

ブログでは複数のベンチマークや評価条件も説明されています。SWE-Bench 系、Terminal-Bench、QwenWebDev、QwenClawBench、MCP-Mark、MCP-Atlas など、コーディング、terminal 操作、MCP、web / OS / Android 環境、長文推論まで幅広い評価が並びます。特にエージェント用途では、1回の回答が合っているかだけでなく、ツールを何度も呼び出す過程で task を壊さないか、途中の前提を検証できるか、長い context を保てるかが重要になります。

実務で読むなら、Qwen3.7-Max はコーディング assistant の候補であると同時に、社内業務自動化のモデル layer 候補です。MCP や multi-エージェント orchestration を前提にするなら、モデル選定だけでなく、使わせる tool の権限、リポジトリ / document へのアクセス範囲、長時間実行時の監視、失敗時のロールバック、生成物の確認プロセスが必要になります。高性能なエージェントモデルほど、業務ワークフロー側のガードレールが問われます。

実務で確認したいポイント

自社リポジトリの小さな issue で、diff 品質と不要変更の少なさを評価する
MCP tool を read-only / write / external action に分けて権限設計する
長時間 task では checkpoint、ログ、human approval の位置を決める
Claude Code、OpenClaw、Qwen Code など実際に使う scaffold で比較する

どう読むべきか

Qwen3.7-Max は、エージェントモデルの競争がコーディングベンチマークだけでなく、ワークフロー automation、tool use、長時間実行へ広がっていることを示す発表です。導入検討ではモデル単体の性能より、エージェント runtime と権限設計まで含めて見る必要があります。