langgenius · henry-fung · Apr 3, 2026 · gemini-code-assist · Apr 4, 2026 · gemini-code-assist
diff --git a/models/azure_openai/manifest.yaml b/models/azure_openai/manifest.yaml
@@ -24,4 +24,4 @@ resource:
     model:
       enabled: false
 type: plugin
-version: 0.0.49
+version: 0.0.50
diff --git a/models/azure_openai/models/constants.py b/models/azure_openai/models/constants.py
@@ -2586,6 +2586,10 @@ class AzureBaseModel(BaseModel):
                 ModelPropertyKey.CONTEXT_SIZE: 272000,
             },
             parameter_rules=[
+                ParameterRule(
+                    name="temperature",
+                    **PARAMETER_RULE_TEMPLATE[DefaultParameterName.TEMPERATURE],
+                ),
                 ParameterRule(
                     name="response_format",
                     label=I18nObject(zh_Hans="回复格式", en_US="response_format"),
@@ -3050,6 +3054,10 @@ class AzureBaseModel(BaseModel):
                 ModelPropertyKey.CONTEXT_SIZE: 400000,
             },
             parameter_rules=[
+                ParameterRule(
+                    name="temperature",
+                    **PARAMETER_RULE_TEMPLATE[DefaultParameterName.TEMPERATURE],
+                ),
                 ParameterRule(
                     name="top_p",
                     **PARAMETER_RULE_TEMPLATE[DefaultParameterName.TOP_P],
@@ -3500,6 +3508,10 @@ class AzureBaseModel(BaseModel):
                 ModelPropertyKey.CONTEXT_SIZE: 400000,
             },
             parameter_rules=[
+                ParameterRule(
+                    name="temperature",
+                    **PARAMETER_RULE_TEMPLATE[DefaultParameterName.TEMPERATURE],
+                ),
                 ParameterRule(
                     name="top_p",
                     **PARAMETER_RULE_TEMPLATE[DefaultParameterName.TOP_P],

diff --git a/models/azure_openai/models/llm/llm.py b/models/azure_openai/models/llm/llm.py
@@ -429,10 +429,17 @@ def _chat_generate_with_responses(
         }
 
         # Map model parameters to the Responses API
-        if "temperature" in model_parameters:
-            responses_params["temperature"] = model_parameters["temperature"]
-        if "top_p" in model_parameters:
-            responses_params["top_p"] = model_parameters["top_p"]
+        # reasoning_effort controls whether temperature/top_p are supported:
+        # - "none" (or not set): reasoning is disabled, temperature/top_p are valid
+        # - any other value: reasoning is active, temperature/top_p are NOT supported
+        reasoning_effort = model_parameters.get("reasoning_effort")
+        if reasoning_effort and reasoning_effort != "none":
+            responses_params["reasoning"] = {"effort": reasoning_effort}
+        else:
+            if "temperature" in model_parameters:
+                responses_params["temperature"] = model_parameters["temperature"]
+            if "top_p" in model_parameters:
+                responses_params["top_p"] = model_parameters["top_p"]
         if "max_tokens" in model_parameters:
             responses_params["max_output_tokens"] = model_parameters["max_tokens"]
         elif "max_completion_tokens" in model_parameters:
@@ -495,9 +502,6 @@ def _chat_generate_with_responses(
                     "format": {"type": response_format}
                 }
 
-        if "reasoning_effort" in model_parameters:
-            responses_params["reasoning"] = {"effort": model_parameters["reasoning_effort"]}
-
         logger.info(
             f"llm request with responses api: model={model}, stream={stream}, "
             f"parameters={responses_params}"

diff --git a/models/openai/manifest.yaml b/models/openai/manifest.yaml
@@ -1,4 +1,4 @@
-version: 0.3.4
+version: 0.3.5
 type: plugin
 author: "langgenius"
 name: "openai"

diff --git a/models/openai/models/llm/gpt-5.1.yaml b/models/openai/models/llm/gpt-5.1.yaml
@@ -17,6 +17,8 @@ parameter_rules:
     default: 8192
     min: 1
     max: 128000
+  - name: temperature
+    use_template: temperature
   - name: response_format
     label:
       zh_Hans: 回复格式

diff --git a/models/openai/models/llm/gpt-5.2.yaml b/models/openai/models/llm/gpt-5.2.yaml
@@ -18,6 +18,8 @@ parameter_rules:
     default: 8192
     min: 1
     max: 128000
+  - name: temperature
+    use_template: temperature
   - name: response_format
     label:
       zh_Hans: 回复格式

diff --git a/models/openai/models/llm/gpt-5.4.yaml b/models/openai/models/llm/gpt-5.4.yaml
@@ -18,6 +18,8 @@ parameter_rules:
     default: 8192
     min: 1
     max: 128000
+  - name: temperature
+    use_template: temperature
   - name: response_format
     label:
       zh_Hans: 回复格式

diff --git a/models/openai/models/llm/llm.py b/models/openai/models/llm/llm.py
@@ -776,7 +776,14 @@ def _chat_generate(
         else:
             # chat model
             messages: Any = [self._convert_prompt_message_to_dict(m) for m in prompt_messages]
-
+
+            # For models where temperature is only valid when reasoning_effort="none"
+            # (e.g. gpt-5.1/5.2/5.4): strip temperature/top_p when reasoning is active
+            _re = model_parameters.get("reasoning_effort")
+            if _re and _re != "none":
+                model_parameters.pop("temperature", None)
+                model_parameters.pop("top_p", None)
-                model_parameters.pop("temperature", None)
-                model_parameters.pop("top_p", None)
+                model_parameters.pop("temperature", None)
+                model_parameters.pop("top_p", None)
+                model_parameters.pop("logprobs", None)
-                model_parameters.pop("temperature", None)
-                model_parameters.pop("top_p", None)
+                model_parameters.pop("temperature", None)
+                model_parameters.pop("top_p", None)
+                model_parameters.pop("logprobs", None)
+
             try:
                 response = client.chat.completions.create(
                     messages=messages,
@@ -821,6 +828,10 @@ def _build_responses_api_params(
         reasoning_effort = params.pop("reasoning_effort", None)
         if reasoning_effort and reasoning_effort != "none":
             params["reasoning"] = {"effort": reasoning_effort}
+            # temperature/top_p/logprobs not supported when reasoning is active
+            params.pop("temperature", None)
+            params.pop("top_p", None)
+            params.pop("logprobs", None)
 
         # response_format -> text.format (Responses API uses different format)
         # response_format is incompatible with Responses API, convert to text.format