fix: align tool call protocol and thinking controls

2026-05-05 00:45:29 +08:00 · 2026-04-26 04:26:51 +08:00
parent f13ad231ac
commit 7475defeca
51 changed files with 799 additions and 489 deletions
--- a/docs/ARCHITECTURE.en.md
+++ b/docs/ARCHITECTURE.en.md
@@ -116,7 +116,7 @@ flowchart LR
 - `internal/translatorcliproxy`: structure translation between Claude/Gemini and OpenAI.
 - `internal/deepseek`: upstream request/session/PoW/SSE handling.
 - `internal/stream` + `internal/sse`: stream parsing and incremental assembly.
- `internal/toolcall`: XML/Markup-family tool-call parsing + anti-leak sieve (`<tool_call>` / `<function_call>` / `<invoke>` / `tool_use` / antml variants).
+- `internal/toolcall`: canonical XML tool-call parsing + anti-leak sieve (the only executable format is `<tool_calls>` / `<invoke name="...">` / `<parameter name="...">`).
 - `internal/admin`: config/accounts/vercel sync/version/dev-capture endpoints.
 - `internal/config`: config loading/validation + runtime settings hot-reload.
 - `internal/account`: managed account pool, inflight slots, waiting queue.
--- a/docs/ARCHITECTURE.md
+++ b/docs/ARCHITECTURE.md
@@ -116,7 +116,7 @@ flowchart LR
 - `internal/translatorcliproxy`：Claude/Gemini 与 OpenAI 结构互转。
 - `internal/deepseek`：上游请求、会话、PoW、SSE 消费。
 - `internal/stream` + `internal/sse`：流式解析与增量处理。
- `internal/toolcall`：以 XML/Markup 家族为核心的工具调用解析与防泄漏筛分（`<tool_call>` / `<function_call>` / `<invoke>` / `tool_use` / antml 变体）。
+- `internal/toolcall`：canonical XML 工具调用解析与防泄漏筛分（唯一可执行格式：`<tool_calls>` / `<invoke name="...">` / `<parameter name="...">`）。
 - `internal/admin`：配置管理、账号管理、Vercel 同步、版本检查、开发抓包。
 - `internal/config`：配置加载、校验、运行时 settings 热更新。
 - `internal/account`：托管账号池、并发槽位、等待队列。
--- a/docs/prompt-compatibility.md
+++ b/docs/prompt-compatibility.md
@@ -96,6 +96,7 @@ DS2API 当前的核心思路，不是把客户端传来的 `messages`、`tools`
 - `prompt` 才是对话上下文主载体。
 - `ref_file_ids` 只承载文件引用，不承载普通文本消息。
 - `tools` 不会作为“原生工具 schema”直接下发给下游，而是被改写进 `prompt`。
+- 客户端显式传入的 thinking / reasoning 开关会被归一到下游 `thinking_enabled`；关闭时即使上游返回 `response/thinking_content`，兼容层也不会把它当作可见正文输出。

 ## 5. prompt 是怎么拼出来的

@@ -178,16 +179,15 @@ assistant 的 reasoning 会变成一个显式标签块：
 assistant 历史 `tool_calls` 不会保留成 OpenAI 原生 JSON，而会转成 prompt 可见的 XML：

 ```xml
-<tools>
-  <tool_call>
-    <tool_name>read_file</tool_name>
-    <param>
-      <path><![CDATA[src/main.go]]></path>
-    </param>
-  </tool_call>
-</tools>
+<tool_calls>
+  <invoke name="read_file">
+    <parameter name="path"><![CDATA[src/main.go]]></parameter>
+  </invoke>
+</tool_calls>
 ```

+这也是当前项目里唯一受支持的 canonical tool-calling 形态；其他形态都会作为普通文本保留，不会作为可执行调用语法。
+
 这件事很重要，因为它决定了：

 - 历史工具调用在 prompt 中是“可见文本历史”
@@ -242,15 +242,17 @@ OpenAI 文件相关实现：

 1. 旧历史消息被切出去。
 2. 旧历史会被重新序列化成一个文本文件。
-3. 文件名固定是 `IGNORE`。
-4. 该文件上传后，其 `file_id` 会排在 `ref_file_ids` 最前面。
-5. live prompt 只保留：
+3. 真正上传的文件名固定是 `HISTORY.txt`。
+4. 文件内容内部会使用 `IGNORE` 这层包装名来闭合 DeepSeek 官网原生文件标记。
+5. 该文件上传后，其 `file_id` 会排在 `ref_file_ids` 最前面。
+6. live prompt 只保留：
   - system / developer
   - 最新 user turn 起的上下文

 历史文件内容不是普通自由文本，而是用同一套角色标记再次序列化出的 transcript：

 ```text
+[uploaded filename]: HISTORY.txt
 [file content end]

 <｜begin▁of▁sentence｜><｜User｜>...<｜Assistant｜>...<｜Tool｜>...
--- a/docs/toolcall-semantics.md
+++ b/docs/toolcall-semantics.md
@@ -1,74 +1,67 @@
 # Tool call parsing semantics（Go/Node 统一语义）

-本文档描述当前代码中工具调用解析链路的**实际行为**（以 `internal/toolcall` 与 `internal/js/helpers/stream-tool-sieve` 为准）。
+本文档描述当前代码中的**实际行为**，以 `internal/toolcall` 与 `internal/js/helpers/stream-tool-sieve` 为准。

 文档导航：[总览](../README.MD) / [架构说明](./ARCHITECTURE.md) / [测试指南](./TESTING.md)

-## 1) 当前输出结构
+## 1) 当前唯一可执行格式
+
+当前版本只把下面这类 canonical XML 视为可执行工具调用：
+
+```xml
+<tool_calls>
+  <invoke name="read_file">
+    <parameter name="path"><![CDATA[README.MD]]></parameter>
+  </invoke>
+</tool_calls>
+```
+
+约束：
+
+- 必须有 `<tool_calls>...</tool_calls>` wrapper
+- 每个调用必须在 `<invoke name="...">...</invoke>` 内
+- 工具名必须放在 `invoke` 的 `name` 属性
+- 参数必须使用 `<parameter name="...">...</parameter>`
+
+## 2) 非 canonical 内容
+
+任何不满足上述 canonical XML 形态的内容，都会保留为普通文本，不会执行。
+
+## 3) 流式与防泄漏行为
+
+在流式链路中（Go / Node 一致）：
+
+- 只有从 `<tool_calls` 开始的 canonical wrapper 才会进入结构化捕获
+- 已识别成功的工具调用不会再次回流到普通文本
+- 不符合新格式的块不会执行，并继续按原样文本透传
+- fenced code block 中的 XML 示例始终按普通文本处理
+
+## 4) 输出结构

 `ParseToolCallsDetailed` / `parseToolCallsDetailed` 返回：

- `calls`：解析出的工具调用列表（`name` + `input`）。
- `sawToolCallSyntax`：检测到工具调用语法特征时为 `true`。
- `rejectedByPolicy`：当前实现固定为 `false`（预留字段）。
- `rejectedToolNames`：当前实现固定为空数组（预留字段）。
+- `calls`：解析出的工具调用列表（`name` + `input`）
+- `sawToolCallSyntax`：只有检测到 `<tool_calls` 时才会为 `true`
+- `rejectedByPolicy`：当前固定为 `false`
+- `rejectedToolNames`：当前固定为空数组

-> 当前 `filterToolCallsDetailed` 仅做结构清洗，不做 allow-list 工具名硬拒绝。
+## 5) 落地建议

-## 2) 解析范围（重点）
+1. Prompt 里只示范 canonical XML 语法。
+2. 上游客户端需要直接输出 canonical XML；DS2API 不会把其他形态改写成工具调用。
+3. 不要依赖 parser 做安全控制；执行器侧仍应做工具名和参数校验。

-当前版本的可执行解析以 **XML/Markup 家族**为主：
-
- `<tool_call>...</tool_call>`
- `<function_call>...</function_call>`
- `<invoke ...>...</invoke>`（含自闭合）
- `<tool_use>...</tool_use>`
- antml 变体（如 `antml:function_call` / `antml:argument`）
-
-并支持在这些标记块内部解析：
-
- JSON 参数字符串
- 标签参数（`<parameter name="...">...`）
- key/value 风格子标签
-
-## 3) 不应再假设的行为
-
-以下说法在当前实现中已不成立：
-
-1. “纯 JSON `tool_calls` 片段会被直接当作可执行工具调用解析”。
-2. “存在 `toolcall.mode` / `toolcall.early_emit_confidence` 等可配置开关可以改变解析策略”。
-
-当前策略在代码中固定为：
-
- 特征匹配开启（feature-match on）
- 高置信度早发开启（early emit on）
- policy 拒绝字段保留但未启用
-
-## 4) 流式与防泄漏语义
-
-在流式链路中（OpenAI / Claude / Gemini 统一内核）：
-
- 工具调用片段会被优先提取为结构化增量输出；
- 已识别的工具调用原始片段不会作为普通文本再次回流；
- fenced code block 中的示例内容按文本处理，不作为可执行工具调用。
-
-## 5) 落地建议（按当前实现）
-
-1. Prompt 里优先约束模型输出 XML/Markup 工具块。
-2. 执行器侧继续做工具名白名单与参数 schema 校验（不要依赖 parser 代替安全策略）。
-3. 需要兼容历史“纯 JSON tool_calls”模型输出时，请在上游模板层把输出规范化为 XML/Markup 风格再进入 DS2API。
-
-## 6) 回归验证建议
+## 6) 回归验证

 可直接运行：

 ```bash
-go test -v -run 'TestParseToolCalls|TestRepair' ./internal/toolcall/
+go test -v -run 'TestParseToolCalls|TestProcessToolSieve' ./internal/toolcall ./internal/adapter/openai
 node --test tests/node/stream-tool-sieve.test.js
 ```

 重点覆盖：

- `<tool_call>` / `<function_call>` / `<invoke>` / `tool_use` / antml 变体
- 参数 JSON 修复与解析
- 流式增量下的工具调用提取与文本防泄漏
+- canonical `<tool_calls>` wrapper 正常解析
+- 非 canonical 内容按普通文本透传
+- 代码块示例不执行