Merge branch 'main' into amd/m3_atom_pd_fp8_0623

seungrokj · web-flow · commit 3d714a9f5960 · 2026-06-25T14:47:58.000+09:00
diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
@@ -9014,7 +9014,7 @@ kimik2.5-fp4-gb200-dynamo-vllm:
           dp-attn: true
 
 dsv4-fp4-b200-dynamo-vllm:
-  image: vllm/vllm-openai:v0.20.1
+  image: vllm/vllm-openai:v0.23.0
   model: deepseek-ai/DeepSeek-V4-Pro
   model-prefix: dsv4
   runner: b200-multinode
diff --git a/benchmarks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/8k1k/disagg-b200-high-tpt-megamoe.yaml b/benchmarks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/8k1k/disagg-b200-high-tpt-megamoe.yaml
@@ -17,7 +17,7 @@ name: "svf-vllm-disagg-b200-high-tpt-megamoe"
 #     absorb cold-cache model loads.
 model:
   path: "deepseek-v4-pro"
-  container: "vllm/vllm-openai:v0.20.1"
+  container: "vllm/vllm-openai:v0.23.0"
   precision: "fp4"
 
 dynamo:
@@ -83,13 +83,13 @@ backend:
       enforce-eager: true
       max-model-len: 9280
       max-num-seqs: 16
-      max-num-batched-tokens: 32768
+      max-num-batched-tokens: 16384
       trust-remote-code: true
       no-enable-prefix-caching: true
       no-enable-flashinfer-autotune: true
       no-async-scheduling: true
       block-size: 256
-      gpu-memory-utilization: 0.95
+      gpu-memory-utilization: 0.9
       no-disable-hybrid-kv-cache-manager: true
       enable-sleep-mode: true
       numa-bind: true
@@ -132,7 +132,7 @@ identity:
     repo: "deepseek-ai/DeepSeek-V4-Pro"
     revision: "0366e4e064385807ea86b088a5c6c878ff23343b"
   container:
-    image: "vllm/vllm-openai:v0.20.1"
+    image: "vllm/vllm-openai:v0.23.0"
   frameworks:
     dynamo: "1.2.0.dev20260426"
-    vllm: "0.20.0"
+    vllm: "0.23.0"
diff --git a/benchmarks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/8k1k/disagg-b200-low-latency.yaml b/benchmarks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/8k1k/disagg-b200-low-latency.yaml
@@ -17,7 +17,7 @@ name: "svf-vllm-disagg-b200-low-latency"
 #     absorb cold-cache model loads.
 model:
   path: "deepseek-v4-pro"
-  container: "vllm/vllm-openai:v0.20.1"
+  container: "vllm/vllm-openai:v0.23.0"
   precision: "fp4"
 
 dynamo:
@@ -131,7 +131,7 @@ benchmark:
 
 identity:
   container:
-    image: "vllm/vllm-openai:v0.20.1"
+    image: "vllm/vllm-openai:v0.23.0"
   frameworks:
     dynamo: "1.2.0.dev20260426"
-    vllm: "0.20.0"
+    vllm: "0.23.0"
diff --git a/benchmarks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/8k1k/disagg-b200-low-middle-curve.yaml b/benchmarks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/8k1k/disagg-b200-low-middle-curve.yaml
@@ -17,7 +17,7 @@ name: "svf-vllm-disagg-b200-low-middle-curve"
 #     absorb cold-cache model loads.
 model:
   path: "deepseek-v4-pro"
-  container: "vllm/vllm-openai:v0.20.1"
+  container: "vllm/vllm-openai:v0.23.0"
   precision: "fp4"
 
 dynamo:
@@ -132,7 +132,7 @@ benchmark:
 
 identity:
   container:
-    image: "vllm/vllm-openai:v0.20.1"
+    image: "vllm/vllm-openai:v0.23.0"
   frameworks:
     dynamo: "1.2.0.dev20260426"
-    vllm: "0.20.0"
+    vllm: "0.23.0"
diff --git a/benchmarks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/8k1k/disagg-b200-max-tpt-megamoe.yaml b/benchmarks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/8k1k/disagg-b200-max-tpt-megamoe.yaml
@@ -17,7 +17,7 @@ name: "svf-vllm-disagg-b200-max-tpt-megamoe"
 #     absorb cold-cache model loads.
 model:
   path: "deepseek-v4-pro"
-  container: "vllm/vllm-openai:v0.20.1"
+  container: "vllm/vllm-openai:v0.23.0"
   precision: "fp4"
 
 dynamo:
@@ -83,13 +83,13 @@ backend:
       enforce-eager: true
       max-model-len: 9280
       max-num-seqs: 16
-      max-num-batched-tokens: 32768
+      max-num-batched-tokens: 16384
       trust-remote-code: true
       no-enable-prefix-caching: true
       no-enable-flashinfer-autotune: true
       no-async-scheduling: true
       block-size: 256
-      gpu-memory-utilization: 0.95
+      gpu-memory-utilization: 0.9
       no-disable-hybrid-kv-cache-manager: true
       enable-sleep-mode: true
       numa-bind: true
@@ -132,7 +132,7 @@ identity:
     repo: "deepseek-ai/DeepSeek-V4-Pro"
     revision: "0366e4e064385807ea86b088a5c6c878ff23343b"
   container:
-    image: "vllm/vllm-openai:v0.20.1"
+    image: "vllm/vllm-openai:v0.23.0"
   frameworks:
     dynamo: "1.2.0.dev20260426"
-    vllm: "0.20.0"
+    vllm: "0.23.0"
diff --git a/benchmarks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/8k1k/disagg-b200-mid-curve-megamoe.yaml b/benchmarks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/8k1k/disagg-b200-mid-curve-megamoe.yaml
@@ -17,7 +17,7 @@ name: "svf-vllm-disagg-b200-mid-curve-megamoe"
 #     absorb cold-cache model loads.
 model:
   path: "deepseek-v4-pro"
-  container: "vllm/vllm-openai:v0.20.1"
+  container: "vllm/vllm-openai:v0.23.0"
   precision: "fp4"
 
 dynamo:
@@ -83,13 +83,13 @@ backend:
       enforce-eager: true
       max-model-len: 9280
       max-num-seqs: 16
-      max-num-batched-tokens: 32768
+      max-num-batched-tokens: 16384
       trust-remote-code: true
       no-enable-prefix-caching: true
       no-enable-flashinfer-autotune: true
       no-async-scheduling: true
       block-size: 256
-      gpu-memory-utilization: 0.95
+      gpu-memory-utilization: 0.9
       no-disable-hybrid-kv-cache-manager: true
       enable-sleep-mode: true
       numa-bind: true
@@ -132,7 +132,7 @@ identity:
     repo: "deepseek-ai/DeepSeek-V4-Pro"
     revision: "0366e4e064385807ea86b088a5c6c878ff23343b"
   container:
-    image: "vllm/vllm-openai:v0.20.1"
+    image: "vllm/vllm-openai:v0.23.0"
   frameworks:
     dynamo: "1.2.0.dev20260426"
-    vllm: "0.20.0"
+    vllm: "0.23.0"
diff --git a/perf-changelog.yaml b/perf-changelog.yaml
@@ -4191,3 +4191,10 @@
     - "models_atom.yaml: add MiniMax-M3-MXFP4 and MiniMax-M3-MXFP8 entries with EAGLE3 MTP flags; add DeepSeek-V4-Pro with TBO/cpu-affinity TP+DPA env and MTP flags; add tp_dp_flags, ep_dp_flags, tp_dp_env, ep_dp_env, kv_cache_flags, mtp_flags, hf_overrides fields"
     - "Image bump for minimaxm3-fp8-mi355x-atom-disagg: rocm/atom-dev:MiniMax-M3-20260622 -> rocm/atom-dev:MiniMax-M3-20260623"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1930
+  
+- config-keys:
+    - dsv4-fp4-b200-dynamo-vllm
+  description:
+    - "Update the DeepSeek-V4-Pro B200 disaggregated Dynamo-vLLM benchmark to the vllm/vllm-openai:v0.23.0 image"
+    - "Lower max-num-batched-tokens to 16384 and gpu-memory-utilization to 0.9 on the high-throughput and max-throughput recipes to avoid OOM"
+  pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1899