NVIDIA AI Enterprise / NIM のロゴ

NVIDIA AI Enterprise / NIM / リリースノート / 2026/05/11 / 重要

NVIDIA NIM for LLMs 2.0.3、vLLM 0.19.0 と Anthropic Messages API 対応を追加

AImodelsdev

公式リリースノート

NVIDIA は NIM for Large Language Models 2.0.3 の release notes を公開しました。vLLM 0.19.0 への更新、Anthropic Messages API 対応、AWS SageMaker 互換性、GPU memory estimation の改善など、enterprise inference 運用に関わる変更が含まれています。

要点

  • NIM LLM 2.0.3 は inference backend を vLLM 0.19.0 に更新
  • /v1/messages endpoint による Anthropic Messages API support が追加された
  • AWS SageMaker BYOC protocol への互換性が改善された
  • GPU memory estimation が見直され、supported GPU での sizing 精度改善が狙われている
  • model-specific NIMs と Model-Free NIM の 2.0.3 更新が含まれる

今回のリリースノートで語られていること

NVIDIA NIM for LLMs 2.0.3 は、LLM inference を enterprise 環境で運用するチームにとって重要な更新です。まず backend が vLLM 0.19.0 に上がり、機能、性能、安定性の改善を取り込む形になっています。NIM は、モデルごとの validated container、runtime configuration、enterprise support を提供する位置づけなので、backend 更新は単なる依存ライブラリ更新ではなく、本番 inference の挙動や performance profile に影響します。

Anthropic Messages API support も注目点です。NIM LLM が /v1/messages endpoint を正式にサポートすることで、Anthropic client SDK や Claude Code のような tool と統合しやすくなります。社内で Claude-compatible な interface を使いながら、実際の inference は自社 GPU / NIM 上で動かしたい組織にとって、client integration の friction を下げる更新です。既存の OpenAI-compatible API だけでなく、複数 provider style の API surface を扱う運用が現実的になってきています。

AWS SageMaker compatibility の改善も、企業導入では実務的です。SageMaker mode では port 8080、GET /ping health check、POST /invocations inference request など、BYOC deployment に必要な protocol が実装されています。SageMaker host agent の environment variables から mode を検出し、NIM_SAGEMAKER_MODE で制御できる点は、MLOps platform に NIM を載せるチームに関係します。

GPU memory estimation の改善は、運用負荷を直接下げる可能性があります。NIM 2.0.3 では golden-model measurements に基づく overhead regression、CUDA graph modes、quantization weight estimation、ECC / initialization overhead の見直しが説明されています。LLM serving では memory sizing の見積もりが甘いと OOM、低すぎる utilization、無駄な GPU 割り当てにつながります。より正確な estimation は、capacity planning と incident prevention の両方に効きます。

実務で確認したいポイント

  1. vLLM 0.19.0 による latency、throughput、tool calling 挙動の差を staging で確認する
  2. Anthropic Messages API 互換 endpoint を使う client / agent を洗い出す
  3. SageMaker BYOC deployment の health check、port、invocation path を runbook に反映する
  4. GPU memory estimation の変更後に、代表モデルの batch size / context length / quantization profile を再評価する

どう読むべきか

NIM LLM 2.0.3 は、モデルの賢さを発表する更新ではなく、enterprise inference を運用しやすくする runtime 更新です。API 互換性、SageMaker 配備、GPU sizing の三点は、本番 AI platform の安定性に直結します。