PaddlePaddle · zccjjj · Apr 23, 2026 · Apr 23, 2026 · PaddlePaddle-bot · Apr 24, 2026
diff --git a/fastdeploy/cache_manager/cache_transfer_manager.py b/fastdeploy/cache_manager/cache_transfer_manager.py
@@ -348,6 +348,7 @@ def _init_storage(self, args):
                     * self.cache_item_bytes,
                     device_id=self.device,
                     dp_id=self.local_data_parallel_id,
+                    splitwise_role=getattr(args, "splitwise_role", "mixed"),
                 )
                 logger.info("Initialized attention store successfully!")
             elif args.kvcache_storage_backend == "file":

diff --git a/fastdeploy/cache_manager/prefix_cache_manager.py b/fastdeploy/cache_manager/prefix_cache_manager.py
@@ -1120,10 +1120,7 @@ def write_cache_to_storage(self, request: Request):
         if isinstance(token_ids, np.ndarray):
             token_ids = token_ids.tolist()
 
-        if self.config.cache_config.enable_output_caching:
-            input_token_ids = token_ids + request.output_token_ids
-        else:
-            input_token_ids = token_ids
+        input_token_ids = token_ids + request.output_token_ids
 
         req_id = request.request_id
         keys = []
@@ -1136,6 +1133,7 @@ def write_cache_to_storage(self, request: Request):
             return
 
         gpu_block_ids = request.block_tables[: len(keys)]
+        input_token_ids = input_token_ids[: len(keys) * self.config.cache_config.block_size]
         logger.info(f"start write cache back to storage, req_id: {req_id}, block num: {len(keys)}")
         write_storage_task = WriteStorageTask(
             task_id=req_id,

diff --git a/fastdeploy/cache_manager/transfer_factory/mooncake_store/attention_store.py b/fastdeploy/cache_manager/transfer_factory/mooncake_store/attention_store.py
@@ -14,6 +14,7 @@
 # limitations under the License.
 """
 
+import os
 import time
 import traceback
 from dataclasses import dataclass
@@ -51,6 +52,7 @@ class AttentionStoreConfig:
     bytes_per_shard_layer_per_block: int = 1024
     device_id: int = 0
     dp_id: int = 0
+    splitwise_role: str = "mixed"
 
 
 class AttentionStore(KVCacheStorage):
@@ -62,6 +64,13 @@ def __init__(self, **args):
         self.config = AttentionStoreConfig(**args)
 
         try:
+            self.config.namespace = os.getenv("AS_NAMESPACE", self.config.namespace)
+            self.config.pod_name = os.getenv("AS_POD_NAME", self.config.pod_name)
+            if int(os.getenv("ENABLE_EP_DP_IN_FD", "1")):
+                self.config.pod_name = (
+                    self.config.pod_name + "_" + self.config.splitwise_role + "_" + str(self.config.dp_id)
+                )
+            self.config.model_version = os.getenv("AS_MODEL_VERSION", self.config.model_version)
             logger.info(f"[INIT] Start initializing AttentionStoreSDK with config: {self.config}")
             self.sdk = AttentionStoreSDK(
                 self.config.namespace,

diff --git a/tests/cache_manager/test_cache_transfer_manager.py b/tests/cache_manager/test_cache_transfer_manager.py
@@ -59,6 +59,7 @@ class Args:
     kvcache_storage_backend = None
     write_policy = "write_through"
     model_path = "test_model"
+    splitwise_role = "mixed"
 
 
 # ==========================
@@ -717,6 +718,7 @@ class LocalArgs(Args):
             * manager.cache_item_bytes,
             device_id=manager.device,
             dp_id=manager.local_data_parallel_id,
+            splitwise_role=LocalArgs.splitwise_role,
         )
 
     def test_invalid_write_policy_raises(self):