NVIDIA AI Enterprise / NIM / リリースノート / 2026/05/11 / 重要

NVIDIA NIM for LLMs 2.0.3、vLLM 0.19.0 と Anthropic Messages API 対応を追加

AImodelsdev

公式リリースノート

公式リリースノート: NVIDIA NIM for LLMs 2.0.3 Release Notes

NVIDIA は NIM for Large Language モデル 2.0.3 の release notes を公開しました。vLLM 0.19.0 への更新、Anthropic Messages API 対応、AWS SageMaker 互換性、GPU memory estimation の改善など、enterprise 推論運用に関わる変更が含まれています。

要点

NIM LLM 2.0.3 は推論 backend を vLLM 0.19.0 に更新
/v1/messages エンドポイントによる Anthropic Messages API サポートが追加された
AWS SageMaker BYOC protocol への互換性が改善された
GPU memory estimation が見直され、supported GPU での sizing 精度改善が狙われている
モデル-specific NIMs とモデル-Free NIM の 2.0.3 更新が含まれる

今回のリリースノートで語られていること

NVIDIA NIM for LLMs 2.0.3 は、LLM 推論を enterprise 環境で運用するチームにとって重要な更新です。まず backend が vLLM 0.19.0 に上がり、機能、性能、安定性の改善を取り込む形になっています。NIM は、モデルごとの validated container、runtime configuration、enterprise サポートを提供する位置づけなので、backend 更新は単なる依存ライブラリ更新ではなく、本番推論の挙動やパフォーマンス profile に影響します。

Anthropic Messages API サポートも注目点です。NIM LLM が /v1/messages エンドポイントを正式にサポートすることで、Anthropic client SDK や Claude Code のような tool と統合しやすくなります。社内で Claude-compatible な interface を使いながら、実際の推論は自社 GPU / NIM 上で動かしたい組織にとって、client 連携の friction を下げる更新です。既存の OpenAI-compatible API だけでなく、複数 provider スタイルの API surface を扱う運用が現実的になってきています。

AWS SageMaker compatibility の改善も、企業導入では実務的です。SageMaker mode では port 8080、GET /ping health check、POST /invocations 推論 request など、BYOC deployment に必要な protocol が実装されています。SageMaker host エージェントの environment variables から mode を検出し、NIM_SAGEMAKER_MODE で制御できる点は、MLOps platform に NIM を載せるチームに関係します。

GPU memory estimation の改善は、運用負荷を直接下げる可能性があります。NIM 2.0.3 では golden-モデル measurements に基づく overhead regression、CUDA graph modes、quantization weight estimation、ECC / initialization overhead の見直しが説明されています。LLM serving では memory sizing の見積もりが甘いと OOM、低すぎる utilization、無駄な GPU 割り当てにつながります。より正確な estimation は、capacity 計画と incident prevention の両方に効きます。

実務で確認したいポイント

vLLM 0.19.0 による遅延、スループット、tool calling 挙動の差を staging で確認する
Anthropic Messages API 互換エンドポイントを使う client / エージェントを洗い出す
SageMaker BYOC deployment の health check、port、invocation path をランブックに反映する
GPU memory estimation の変更後に、代表モデルのバッチ size / context length / quantization profile を再評価する

どう読むべきか

NIM LLM 2.0.3 は、モデルの賢さを発表する更新ではなく、enterprise 推論を運用しやすくする runtime 更新です。API 互換性、SageMaker 配備、GPU sizing の三点は、本番 AI platform の安定性に直結します。