fix: implement multi-turn conversation session reuse across providers

deepseek-v4-pro · bennylii · commit e5eb9a024c22 · 2026-04-29T18:08:16.000+08:00
Previously, every chat request created a new upstream session because providerSessionId (populated by each adapter) was never consumed by the session manager or routes. This broke multi-turn conversation for all providers. Changes: - sessionManager: add computeHistoryHash, 3-tier session lookup (hash match → active session → new), and updateProviderSession method - DeepSeek/Kimi/QwenAI adapters: accept and reuse existing session IDs instead of always creating new upstream sessions - forwarder: pass providerSessionId/parentMessageId to adapter calls - routes/chat: integrate sessionManager into request flow — create sessions before forwarding, update after response - Tests: 27 unit tests covering hash computation, session lifecycle, and multi-turn flow simulation Closes #86 Co-Authored-By: deepseek-v4-pro <noreply@deepseek.com>
diff --git a/src/main/proxy/adapters/deepseek.ts b/src/main/proxy/adapters/deepseek.ts
@@ -63,6 +63,8 @@ interface ChatCompletionRequest {
   reasoning_effort?: 'low' | 'medium' | 'high'
   tools?: any[]
   tool_choice?: any
+  providerSessionId?: string
+  parentMessageId?: string
 }
 
 const tokenCache = new Map<string, TokenInfo>()
@@ -371,18 +373,21 @@ ${message.content || ''}
 
   async chatCompletion(request: ChatCompletionRequest): Promise<{ response: AxiosResponse; sessionId: string }> {
     const token = await this.acquireToken()
-    
-    const sessionId = await this.createSession()
-    console.log('[DeepSeek] Created new session:', sessionId)
-    
+
+    // Reuse existing session or create a new one
+    const sessionId = request.providerSessionId || await this.createSession()
+    console.log('[DeepSeek] Using session:', sessionId, request.providerSessionId ? '(reused)' : '(new)')
+
+    const parentMessageId = request.parentMessageId || null
+
     const challenge = await this.getChallenge('/api/v0/chat/completion')
     const challengeAnswer = await this.calculateChallengeAnswer(challenge)
 
     // Clone messages to avoid modifying original request
     // Note: Tool prompt injection is already handled by Forwarder.transformRequestForPromptToolUse()
     const messages = [...request.messages]
 
-    let prompt = this.messagesToPrompt(messages, false)
+    let prompt = this.messagesToPrompt(messages, !!request.providerSessionId)
 
     // Use request parameters for mode control (OpenAI compatible)
     let searchEnabled = false
@@ -421,7 +426,7 @@ ${message.content || ''}
       `${DEEPSEEK_API_BASE}/v0/chat/completion`,
       {
         chat_session_id: sessionId,
-        parent_message_id: null,
+        parent_message_id: parentMessageId,
         prompt,
         model_type: modelType,
         ref_file_ids: [],
diff --git a/src/main/proxy/adapters/kimi.ts b/src/main/proxy/adapters/kimi.ts
@@ -60,6 +60,8 @@ interface ChatCompletionRequest {
   tool_choice?: any
   conversationId?: string
   parentId?: string
+  providerSessionId?: string
+  parentMessageId?: string
 }
 
 const accessTokenMap = new Map<string, TokenInfo>()
@@ -272,6 +274,10 @@ export class KimiAdapter {
   async chatCompletion(request: ChatCompletionRequest): Promise<{ response: AxiosResponse; conversationId: string }> {
     const { accessToken } = await this.acquireToken()
 
+    const conversationId = request.conversationId || request.providerSessionId || ''
+    const parentId = request.parentId || request.parentMessageId || ''
+    const isMultiTurn = !!conversationId
+
     const messages = [...request.messages]
 
     // Check if tool prompt has already been injected by client
@@ -297,17 +303,17 @@ export class KimiAdapter {
       }
     }
 
-    const content = this.messagesPrepare(messages, toolsPrompt, false)
+    const content = this.messagesPrepare(messages, toolsPrompt, isMultiTurn)
 
     // Determine if thinking and web search should be enabled
     // Priority: explicit parameters > model name detection
     // Use originalModel for feature detection (preserves user's intent before mapping)
     const modelForDetection = request.originalModel || request.model
     const modelLower = modelForDetection.toLowerCase()
-    
+
     let enableThinking = request.enableThinking ?? false
     let enableWebSearch = request.enableWebSearch ?? false
-    
+
     // Auto-enable based on model name (if not explicitly set)
     if (!enableThinking && (modelLower.includes('think') || modelLower.includes('r1'))) {
       enableThinking = true
@@ -320,10 +326,10 @@ export class KimiAdapter {
 
     const jsonBody = JSON.stringify({
       scenario: 'SCENARIO_K2D5',
-      chat_id: '',
+      chat_id: conversationId,
       tools: enableWebSearch ? [{ type: 'TOOL_TYPE_SEARCH', search: {} }] : [],
       message: {
-        parent_id: '',
+        parent_id: parentId,
         role: 'user',
         blocks: [{
           message_id: '',
@@ -371,7 +377,7 @@ export class KimiAdapter {
       throw new Error(`Completion request failed: HTTP ${response.status}`)
     }
 
-    return { response, conversationId: '' }
+    return { response, conversationId }
   }
 
   async deleteConversation(conversationId: string): Promise<boolean> {
diff --git a/src/main/proxy/adapters/qwen-ai.ts b/src/main/proxy/adapters/qwen-ai.ts
@@ -57,6 +57,8 @@ interface ChatCompletionRequest {
   enable_thinking?: boolean
   thinking_budget?: number
   chatId?: string
+  providerSessionId?: string
+  parentMessageId?: string
 }
 
 function uuid(): string {
@@ -256,25 +258,27 @@ export class QwenAiAdapter {
       forceThinking = (this as any)._forceThinking
     }
 
-    // Always create a new chat (single-turn mode only)
-    const chatId = await this.createChat(modelId, 'OpenAI_API_Chat')
-    console.log('[QwenAI] Created new chat:', chatId)
+    // Reuse existing chat or create a new one
+    const existingChatId = request.providerSessionId || request.chatId
+    const chatId = existingChatId || await this.createChat(modelId, 'OpenAI_API_Chat')
+    console.log('[QwenAI] Using chat:', chatId, existingChatId ? '(reused)' : '(new)')
+
+    const parentId = request.parentMessageId || null
 
     const messages = request.messages
-    
-    // Extract system message and user message
+
+    // Extract system message and last user message
     let systemContent = ''
     let userContent = ''
-    
-    // Single-turn mode: extract all messages
+
     for (const msg of messages) {
       if (msg.role === 'system') {
         systemContent += (systemContent ? '\n\n' : '') + msg.content
       } else if (msg.role === 'user') {
         userContent = msg.content
       }
     }
-    
+
     // If system prompt exists, prepend it to user content
     if (systemContent) {
       userContent = `${systemContent}\n\nUser: ${userContent}`
@@ -289,10 +293,10 @@ export class QwenAiAdapter {
     // 1. Model name suffix: -thinking (force thinking), -fast (force fast mode)
     // 2. enable_thinking parameter for explicit control
     // 3. If neither is specified, thinking mode is disabled by default (fast mode)
-    const shouldEnableThinking = forceThinking !== undefined 
-      ? forceThinking 
+    const shouldEnableThinking = forceThinking !== undefined
+      ? forceThinking
       : request.enable_thinking === true
-    
+
     const featureConfig: Record<string, any> = {
       thinking_enabled: shouldEnableThinking,
       output_schema: 'phase',
@@ -313,11 +317,11 @@ export class QwenAiAdapter {
       chat_id: chatId,
       chat_mode: 'normal',
       model: modelId,
-      parent_id: null,
+      parent_id: parentId,
       messages: [
         {
           fid,
-          parentId: null,
+          parentId: parentId,
           childrenIds: [childId],
           role: 'user',
           content: userContent,
@@ -329,7 +333,7 @@ export class QwenAiAdapter {
           feature_config: featureConfig,
           extra: { meta: { subChatType: 't2t' } },
           sub_chat_type: 't2t',
-          parent_id: null,
+          parent_id: parentId,
         },
       ],
       timestamp: ts + 1,
diff --git a/src/main/proxy/forwarder.ts b/src/main/proxy/forwarder.ts
@@ -589,6 +589,8 @@ CRITICAL RULES:
         temperature: transformedRequest.temperature,
         web_search: transformedRequest.web_search,
         reasoning_effort: transformedRequest.reasoning_effort,
+        providerSessionId: request.providerSessionId,
+        parentMessageId: request.parentMessageId,
       })
 
       const latency = Date.now() - startTime
@@ -634,7 +636,8 @@ CRITICAL RULES:
       
       if (request.stream) {
         const transformedStream = await handler.handleStream(response.data)
-        
+        ;(transformedStream as any)._handler = handler
+
         return {
           success: true,
           status: response.status,
@@ -804,6 +807,8 @@ CRITICAL RULES:
         temperature: request.temperature,
         enableThinking: !!request.reasoning_effort,
         enableWebSearch: !!request.web_search,
+        providerSessionId: request.providerSessionId,
+        parentMessageId: request.parentMessageId,
       })
 
       const latency = Date.now() - startTime
@@ -837,14 +842,17 @@ CRITICAL RULES:
           }
         }
         
+        // Attach handler to stream for post-stream session ID extraction
+        (transformedStream as any)._handler = handler
+
         return {
           success: true,
           status: response.status,
           headers: this.extractHeaders(response.headers),
           stream: transformedStream,
           skipTransform: true,
           latency,
-          providerSessionId: undefined,
+          providerSessionId: handler.getConversationId() || conversationId || undefined,
         }
       }
 
@@ -992,6 +1000,8 @@ CRITICAL RULES:
         stream: request.stream,
         temperature: request.temperature,
         enable_thinking: !!request.reasoning_effort,
+        providerSessionId: request.providerSessionId,
+        parentMessageId: request.parentMessageId,
       })
 
       const latency = Date.now() - startTime
@@ -1011,6 +1021,7 @@ CRITICAL RULES:
 
       if (request.stream) {
         const transformedStream = await handler.handleStream(response.data)
+        ;(transformedStream as any)._handler = handler
 
         if (shouldDeleteSession()) {
           const originalEnd = transformedStream.end.bind(transformedStream)
diff --git a/src/main/proxy/routes/chat.ts b/src/main/proxy/routes/chat.ts
@@ -13,7 +13,9 @@ import { streamHandler } from '../stream'
 import { proxyStatusManager } from '../status'
 import { modelMapper } from '../modelMapper'
 import { storeManager } from '../../store/store'
-import { 
+import { sessionManager } from '../sessionManager'
+import type { ChatMessage as StoreChatMessage } from '../../store/types'
+import {
   isAnthropicToolFormat,
   transformResponseToAnthropic,
   transformChunkToAnthropic
@@ -165,6 +167,21 @@ router.post('/completions', async (ctx: Context) => {
 
   const { account, provider, actualModel } = selection
 
+  // Get or create session for multi-turn conversation continuation
+  const storeMessages: StoreChatMessage[] = request.messages.map(m => ({
+    role: m.role,
+    content: m.content === null ? '' : m.content,
+    timestamp: startTime,
+  }))
+  const sessionContext = sessionManager.getOrCreateSession({
+    providerId: provider.id,
+    accountId: account.id,
+    model: request.model,
+    messages: storeMessages,
+  })
+  request.providerSessionId = sessionContext.providerSessionId
+  request.parentMessageId = sessionContext.parentMessageId
+
   const context: ProxyContext = {
     requestId,
     providerId: provider.id,
@@ -331,6 +348,14 @@ router.post('/completions', async (ctx: Context) => {
 
     storeManager.recordRequestInStats(true, latency, request.model, provider.id, account.id)
 
+    // Update session with provider-side IDs for multi-turn continuation
+    sessionManager.updateProviderSession(
+      sessionContext.sessionId,
+      result.providerSessionId,
+      result.parentMessageId,
+      storeMessages,
+    )
+
     if (request.stream === true && result.stream) {
       ctx.set('Content-Type', 'text/event-stream')
       ctx.set('Cache-Control', 'no-cache')
@@ -391,6 +416,18 @@ router.post('/completions', async (ctx: Context) => {
               responseBody: collectedContent || undefined,
             })
           }
+          // Update session with final provider IDs from stream handler
+          const handler = (result.stream as any)._handler
+          if (handler) {
+            const finalSessionId = handler.getConversationId?.() || handler.getChatId?.()
+            const finalParentId = handler.getLastMessageId?.() || handler.getResponseId?.()
+            sessionManager.updateProviderSession(
+              sessionContext.sessionId,
+              finalSessionId ?? result.providerSessionId,
+              finalParentId ?? result.parentMessageId,
+              storeMessages,
+            )
+          }
           wrapperStream.end()
         })
       } else {
diff --git a/src/main/proxy/sessionManager.ts b/src/main/proxy/sessionManager.ts
diff --git a/tests/session-manager.test.ts b/tests/session-manager.test.ts