SemiAnalysisAI
diff --git a/‎.github/configs/amd-master.yaml‎
Lines changed: 46 additions & 0 deletions b/‎.github/configs/amd-master.yaml‎
Lines changed: 46 additions & 0 deletions
diff --git a/‎benchmarks/multi_node/amd_utils/bench.sh‎
Lines changed: 32 additions & 0 deletions b/‎benchmarks/multi_node/amd_utils/bench.sh‎
Lines changed: 32 additions & 0 deletions
diff --git a/‎benchmarks/multi_node/amd_utils/job.slurm‎
Lines changed: 42 additions & 0 deletions b/‎benchmarks/multi_node/amd_utils/job.slurm‎
Lines changed: 42 additions & 0 deletions
@@ -1366,6 +1366,52 @@ kimik2.5-fp4-mi355x-vllm-disagg:
           additional-settings:
           - "DECODE_NODES=2"
 
+# Agentic multinode 1P1D bring-up: Mooncake(tcp) carries the current-request
+# prefill->decode KV transfer; LMCacheMP is enabled only on the prefill engine
+# for local host-DRAM L2 prefix reuse. Decode intentionally uses Mooncake only
+# to avoid decode-side LMCache lookup/retrieve racing the remote-prefill load.
+kimik2.5-fp4-mi355x-vllm-disagg-agentic:
+  image: yukiozzz/kimi-lmc-mc-rocm:dmabuf
+  model: amd/Kimi-K2.5-MXFP4
+  model-prefix: kimik2.5
+  runner: mi355x-disagg
+  precision: fp4
+  framework: vllm-disagg
+  multinode: true
+  disagg: true
+  scenarios:
+    agentic-coding:
+    - duration: 1800
+      search-space:
+      - spec-decoding: "none"
+        conc-list: [ 8, 16, 32 ]
+        prefill:
+          num-worker: 1
+          tp: 8
+          ep: 1
+          dp-attn: false
+          additional-settings:
+          - "PREFILL_NODES=1"
+          - "ROUTER_TYPE=mc-proxy"
+          - "PREFILL_KV_CONNECTOR=mooncake-lmcachemp"
+          - "DECODE_KV_CONNECTOR=mooncake"
+          - "MC_PROTOCOL=tcp"
+          - "ENABLE_PREFIX_CACHING=1"
+          - "MAX_MODEL_LEN=262144"
+          - "WEKA_LOADER_OVERRIDE=semianalysis_cc_traces_weka_with_subagents_256k"
+          - "LMCACHE_L1_SIZE_GB=2500"
+          - "LMCACHE_L1_INIT_SIZE_GB=20"
+          - "LMCACHE_L1_READ_TTL_SECONDS=3600"
+          - "LMCACHE_CHUNK_SIZE=256"
+          - "LMCACHE_MAX_WORKERS=8"
+        decode:
+          num-worker: 1
+          tp: 8
+          ep: 8
+          dp-attn: false
+          additional-settings:
+          - "DECODE_NODES=1"
+
 dsr1-fp4-mi355x-sglang-disagg:
   image: lmsysorg/sglang-rocm:v0.5.12-rocm720-mi35x-20260519
   model: amd/DeepSeek-R1-0528-MXFP4-v2
 
@@ -55,6 +55,38 @@ source "$(dirname "$0")/../../benchmark_lib.sh"
 
 REPO_ROOT="$(cd "$(dirname "$0")/../../.." && pwd)"
 
+if [[ "${IS_AGENTIC:-0}" == "1" ]]; then
+    export PORT="${ROUTER_PORT}"
+    export MODEL="${MODEL:-${BENCH_MODEL}}"
+    export DURATION="${DURATION:-1800}"
+    export INFMAX_CONTAINER_WORKSPACE="${INFMAX_CONTAINER_WORKSPACE:-/workspace}"
+    export AGENTIC_OUTPUT_DIR="${AGENTIC_OUTPUT_DIR:-/workspace}"
+    export RESULT_FILENAME="${RESULT_FILENAME:-agentic_bench}"
+
+    RESULT_DIR="${RESULT_DIR:-/workspace/LOGS/agentic}"
+    mkdir -p "$RESULT_DIR"
+
+    resolve_trace_source
+    install_agentic_deps
+
+    # Multinode agentic matrix entries carry a single concurrency, but keep
+    # the loop so local one-off runs can pass a small x-separated list.
+    replay_failed=0
+    for max_concurrency in "${chosen_concurrencies[@]}"; do
+        export CONC="$max_concurrency"
+        export USERS="$max_concurrency"
+        build_replay_cmd "$RESULT_DIR"
+        run_agentic_replay_and_write_outputs "$RESULT_DIR" || replay_failed=1
+
+        if [[ "$ENGINE" == "vllm-disagg" ]]; then
+            echo "[BENCH] Cooldown: waiting 10s for idle KV block reaper..."
+            sleep 10
+        fi
+    done
+
+    exit "$replay_failed"
+fi
+
 for max_concurrency in "${chosen_concurrencies[@]}"; do
 
     export_file="${profile_folder}/concurrency_${max_concurrency}_req_rate_${chosen_req_rate}_gpus_$((prefill_gpus+decode_gpus))_ctx_${prefill_gpus}_gen_${decode_gpus}"
 
@@ -312,6 +312,28 @@ export RESULT_FILENAME="${RESULT_FILENAME:-}"
 export SPEC_DECODING="${SPEC_DECODING:-}"
 export IS_MULTINODE="${IS_MULTINODE:-false}"
 
+# Agentic / custom vLLM-disagg connector knobs (threaded from submit.sh)
+export IS_AGENTIC="${IS_AGENTIC:-0}"
+export DURATION="${DURATION:-1800}"
+export MODEL="${MODEL:-}"
+export ROUTER_TYPE="${ROUTER_TYPE:-vllm-router}"
+export ROUTER_PORT="${ROUTER_PORT:-30000}"
+export ENABLE_PREFIX_CACHING="${ENABLE_PREFIX_CACHING:-}"
+export MAX_MODEL_LEN="${MAX_MODEL_LEN:-}"
+export WEKA_LOADER_OVERRIDE="${WEKA_LOADER_OVERRIDE:-}"
+export VLLM_BIND_IP="${VLLM_BIND_IP:-}"
+export PREFILL_KV_CONNECTOR="${PREFILL_KV_CONNECTOR:-moriio}"
+export DECODE_KV_CONNECTOR="${DECODE_KV_CONNECTOR:-moriio}"
+export MC_PROTOCOL="${MC_PROTOCOL:-tcp}"
+export LMCACHE_HOST="${LMCACHE_HOST:-127.0.0.1}"
+export LMCACHE_PORT="${LMCACHE_PORT:-5555}"
+export LMCACHE_HTTP_PORT="${LMCACHE_HTTP_PORT:-8080}"
+export LMCACHE_L1_SIZE_GB="${LMCACHE_L1_SIZE_GB:-2500}"
+export LMCACHE_L1_INIT_SIZE_GB="${LMCACHE_L1_INIT_SIZE_GB:-20}"
+export LMCACHE_L1_READ_TTL_SECONDS="${LMCACHE_L1_READ_TTL_SECONDS:-3600}"
+export LMCACHE_CHUNK_SIZE="${LMCACHE_CHUNK_SIZE:-256}"
+export LMCACHE_MAX_WORKERS="${LMCACHE_MAX_WORKERS:-8}"
+
 SANITIZED_USER=$(echo "$USER_NAME" | tr -c 'a-zA-Z0-9_.-' '_')
 export DOCKER_CONT_NAME="container_${ENGINE}_${SANITIZED_USER}_${MODEL_NAME}_${SLURM_JOB_ID}"
 
@@ -385,6 +407,26 @@ DOCKER_ENV_COMMON=(
     -e DECODE_ENABLE_DP=\$DECODE_ENABLE_DP
     -e DECODE_MTP_SIZE=\$DECODE_MTP_SIZE
     -e IS_MULTINODE=\$IS_MULTINODE
+    -e IS_AGENTIC=\$IS_AGENTIC
+    -e DURATION=\$DURATION
+    -e MODEL=\$MODEL
+    -e ROUTER_TYPE=\$ROUTER_TYPE
+    -e ROUTER_PORT=\$ROUTER_PORT
+    -e ENABLE_PREFIX_CACHING=\$ENABLE_PREFIX_CACHING
+    -e MAX_MODEL_LEN=\$MAX_MODEL_LEN
+    -e WEKA_LOADER_OVERRIDE=\$WEKA_LOADER_OVERRIDE
+    -e VLLM_BIND_IP=\$VLLM_BIND_IP
+    -e PREFILL_KV_CONNECTOR=\$PREFILL_KV_CONNECTOR
+    -e DECODE_KV_CONNECTOR=\$DECODE_KV_CONNECTOR
+    -e MC_PROTOCOL=\$MC_PROTOCOL
+    -e LMCACHE_HOST=\$LMCACHE_HOST
+    -e LMCACHE_PORT=\$LMCACHE_PORT
+    -e LMCACHE_HTTP_PORT=\$LMCACHE_HTTP_PORT
+    -e LMCACHE_L1_SIZE_GB=\$LMCACHE_L1_SIZE_GB
+    -e LMCACHE_L1_INIT_SIZE_GB=\$LMCACHE_L1_INIT_SIZE_GB
+    -e LMCACHE_L1_READ_TTL_SECONDS=\$LMCACHE_L1_READ_TTL_SECONDS
+    -e LMCACHE_CHUNK_SIZE=\$LMCACHE_CHUNK_SIZE
+    -e LMCACHE_MAX_WORKERS=\$LMCACHE_MAX_WORKERS
 )
 
 # Engine-specific env vars