Qwen-AgentWorld-35B 在 Apple Silicon 上：值得在你的 agent 循环里占一个位置吗？

一份面向本地模型运行者与自主 agent 构建者的评估简报。 它是什么：一个语言世界模型——它预测某个动作之后终端会输出什么，它本身并不执行动作。能跑什么：MLX，或带一行元数据覆盖的 llama.cpp/Metal（不加这一行，纯 GGUF 无法加载）；没有官方 MLX 构建。我们实测到的唯一差异化优势：在多步序列中通用模型会漂移，而它能始终守住模拟器的角色。 它的代价：严重的过度推理——可以封顶。数据为小样本、方向性，每个都标注了样本量；作者基准的数字标记为声称。

在 M5 Max 上用 asiai 测得，MLX 4-bit，单引擎逐一运行，2026-06。欢迎通过 github.com/druide67/asiai 提交更正。

何时使用 / 何时不用

适合用作廉价 agent rollout 的环境模拟器、工具/终端输出的 mock，或者替代 LLM-as-judge 的轨迹验证器（验证器用例在此未经测试——见 §6）。如果你按助手方式给它提示，它作为一个普通的 35B 通用模型同样站得住脚。

不适合用作你的日常助手：作者并未提供任何 chat/code 使用路径，且它带有沉重的过度推理税（可封顶，见 §5）。也别等那个 “击败 GPT-5.4”的 397B 变体——它无法下载 （尽管宣布为 Apache-2.0，HF 仍返回 401）。

1. 可运行性与复现（先读这一节）

如果它在你的机器上跑不起来，其它一切都无关紧要。直白的结论：

如今有两条路可行；两条都不是开箱即用。 没有官方 MLX 构建—— 我们用的是社区的 MLX 转换版本，那也是我们实测所走的路径。GGUF 在 llama.cpp / Metal 上同样能加载，但并非开箱即用：照原样会以 missing tensor 'blk.40.attn_norm.weight' 失败（build 9780，于 2026-06-25 再次确认）。原因是转换器的差一错误，而非权重缺失——该 GGUF 声明了 block_count=41（在索引 40 处多了一层 MTP），却只装载了 40 层真实层 0–39，于是 llama.cpp 去请求一个本就不该存在的层。在加载时覆盖元数据，它便能加载并生成： --override-kv qwen35moe.block_count=int:40 --override-kv qwen35moe.nextn_predict_layers=int:0。 Ollama 和 LM Studio 封装了 llama.cpp，但并不可靠地暴露 --override-kv，因此这两者按未测试对待。官方的服务端部署是 vLLM / SGLang / Transformers。
能加载的量化并不证明它能输出正确的长链式思维—— 要验证生成，而不只是加载。

复现配置：

	仓库（Hugging Face）	大小
AgentWorld（专用模型）	`jedisct1/Qwen-AgentWorld-35B-A3B-oQ4-MLX`	~20 GB
Qwen3.6（通用基线）	`mlx-community/Qwen3.6-35B-A3B-4bit`	~19 GB

mlx-lm 0.31.3 · M5 Max 128 GB · 采样 temp 0.6 / top-p 0.95 / top-k 20 · 同一时刻只加载一个模型。

Token 预算是一等的配置变量

AgentWorld 会产生很长的推理轨迹。在 max_tokens=4096 下，它的输出会在给出答案之前被截断，并被记为假失败。在某些平凡情形下它需要 8192–12288 个推理 token 才能完成。任何人在低预算下重跑，都会给 AgentWorld 得到更难看的数字，那是测试框架的产物，而非模型错误。

RAM / 上下文占用：权重 ~20 GB；在 128 GB Mac 上 64K 上下文时峰值 ~27 GB； KV 缓存从 4K 到 64K 仅增长约 5 GB（这是共享混合架构的特性）。一台 64 GB Mac 在缩减上下文下可从容运行；36–48 GB 偏紧，但在 4K–32K 下可用。

2. 它是什么，以及作者如何定位它

一个语言世界模型：给定一个状态和一个动作（一条带类型的命令），它通过一段长链式思维预测下一个观测（终端返回什么）。七个数字领域（MCP、 Search、Terminal、SWE、Android、Web、OS）。它被训练为成为环境本身，而非在环境中行动。

作者将它发布为一个世界模型，而非助手：系统提示是模拟提示，且没有任何文档化的 chat/code 使用路径。因此一个合理的担忧是，把它当助手用时，它会模拟一段控制台输出，而不是回答问题。我们的测试为此提供了细微差别（§4）：用一个标准助手提示，它的写码与推理都与通用模型相当。行为由提示决定，而非由某种丢失的能力决定。

关于世界模型一词

社区最常见的反对意见是术语层面的：这是一个做下一文本状态预测的自回归 LLM，而非 LeCun 意义上的非自回归 / 基于能量的世界模型。在这个名字让你产生模型并未声称能满足的预期之前，值得了解这一点。

已核实的规格（HF 模型卡，公开可见）：


参数量	34.66 B 总量 · ~3 B 激活（MoE）
架构	`qwen3_5_moe`，混合 Attention + Gated-DeltaNet
专家	256（8 路由 + 1 共享）
上下文	最高 256K tokens
许可证	Apache-2.0（BF16 下 ~65 GB）

3. 差异化优势：多步角色保真度

这是唯一一项新的、站得住脚的结果——也恰恰是作者自家基准从未测量过的（它只有单步）。测试是：链接若干会构建状态的命令（创建目录、进入它、写一个文件、再读回来），并在每一步让模型预测确切的终端输出。

把它定性为一种可靠性属性——格式/角色纪律——而非理解能力上的优势。Qwen3.6 完全理解终端（它能追踪工作目录、数对行数）；区别在于它有时会脱离角色。

测试	AgentWorld	Qwen3.6	备注
合理输出（`ls`、`git`、`ps`）—— N=3	9/9	9/9	持平
序列 A —— 6 步，有锚定（4 次运行）	0 次脱离角色 / 24 步	间歇性	守住角色
序列 B —— 8 步，有锚定（3 次运行）	0 次脱离角色 / 24 步	间歇性	守住角色
闭环（自我喂入）—— N=2	6/6 ×2	间歇性	守住角色

诚实解读：在两个序列、四次运行的48 个观测步中，AgentWorld 脱离角色 0 次。 Qwen3.6 会间歇性脱离角色——它的锚定运行在重复之间从 0/6 → 6/6 摆动（N=2），所以这是方向性的，而非一个比率。当它失败时，它会复述动作 JSON，而不是模拟输出：

$ cat log.txt              # log.txt was just deleted → env must return an error

AgentWorld (in role):
  root@host:/home/user# cat log.txt
  cat: log.txt: No such file or directory
  root@host:/home/user#

Qwen3.6 (out of role, ~1 run in 2 here):
  [{"keystrokes": "cat log.txt\n", "duration": 0.1}]    # echoes the input command
                                                        # instead of the output

正确答案往往就在 Qwen3.6 的输出里——这是一次格式/角色 失败，而非理解错误。对于一个每一步都必须能被下一步机器读取的循环来说，一次脱离角色就会污染整条链，而这正是 AgentWorld 所避免的。

测量注意事项（已披露）

对命令回显行做逐字节精确评分很严格，而我们的序列 D 与序列 E 的固定样本，在 cd 观测是否包含回显这一点上并不一致—— 因此角色保真度指标存在一处已知的小瑕疵。在四个文件上方向稳健；精确的差距则不然。

4. 通用能力：基座并未退化

机主关心的问题（世界模型微调是否破坏了基座 LLM？）只得到一个冷静的章节，而非头条。简短回答：没有——N=3，方向性。

任务	AgentWorld	Qwen3.6
推理（5 道可验证谜题，含 strawberry-'r' 陷阱）	15/15	15/15	持平
代码生成（4 个函数，对单元测试执行）	12/12	12/12	持平

用助手提示（而非模拟器提示）运行时，AgentWorld 写出正确代码并正确推理，与通用模型持平。它不会“跑偏”——它是一个恰好会过度推理的称职通用模型。

5. 代价：过度推理税——以及补救办法

把它从脚注提升为采纳关口，因为对于一个逐步验证器而言，它是决定性的数字——但它有解。

在确定性终端用例上测得（每个用例 N=2）：

模式	AgentWorld	Qwen3.6
推理开启（默认模拟器模式）	中位数 1140 tok/预测，最大 2558 · ~14 s · 8/8 精确	504 tok · ~4.5 s · 8/8
推理关闭（`enable_thinking=false`）	45 tok/预测 · ~0.5 s · 8/8 精确	45 tok · ~0.4 s · 8/8

AgentWorld 比通用模型多输出约 2.3× 的 token，而在一个平凡的 cd ; pwd 上它的推理在 3 次运行中有 2 次跑过了 8192 tokens。最终答案是正确的—— 这是每一步的延迟/算力税，而非正确性缺陷。

补救办法：给它封顶

在模拟器角色中关闭推理，会把 token 削减约 25×、延迟约 28×，且在确定性用例上不损失逐字节保真度（仍为 8/8）。对于逐步验证器或 mock，用 enable_thinking=false 加一个 max_tokens 上限来运行它。注意：这仅在确定性用例上测过—— 在那些推理确实有帮助的输出上（模糊状态、复杂内容），关闭推理可能损失保真度。此处未经测试。

6. 性能（单次运行，指示性 ★）

同一系列、同一架构，所以各项画像很接近。请将其当作趋势来读。

指标	AgentWorld	Qwen3.6	解读
首 token 时间 ★	~360 ms	~510 ms	AW 领先
解码吞吐 ★	~110 t/s	~117 t/s	慢约 7%
64K 上下文下解码	~132 t/s	~160 t/s	保留约 73%
内存 4K → 64K	+5 GB	+5 GB	混合架构，非 AW 特有
上下文缓存（13K-token 前缀复用）	~×21	~×23	MLX 属性，非模型本身

约 7% 的解码差距，最可能源自 4-bit 配方（AgentWorld 用 6-bit 保护其线性注意力投影；Qwen3.6 用 8-bit 保护 MoE 门控），且建立在不等长的输出上——是一个混杂因素，而非模型劣势。提示缓存是 mlx-lm 的特性，两个模型上完全相同；其约 20× 的增益随缓存前缀长度而变，它不是 AgentWorld 的属性。

未经测试但高价值（社区的 #2 用例）：把下一状态预测用作轨迹验证器——当真实环境与预测发生分歧时，那就标示出一个偏离轨道的 agent。我们没有测量它的假阳性 / 假阴性行为。悬而未决的问题。

7. 作者的声称

作者基准——一项声称，而非一次测量

在他们自家的基准（AgentWorldBench）上，AgentWorld-35B 得 56.4，与 Claude Sonnet 4.6（56.0）持平。他们将增益归因于专门化，通过对基座 Qwen3.5 的消融得出（自报，而非与 Qwen3.6 正面对决）：工具使用（MCP）+21.9、软件工程 +18.1、终端 +10.2。论点：世界模型专门化胜过代际改进—— 通用模型 Qwen3.6 在模拟保真度上得分低于基座（42.9 对 47.7），因为它被调校去行动，而非去预测状态。

这些数字来自一个单一来源、内部的基准，由 LLM 评判者打分，模型在发布时不到 48 小时——没有第三方复现。他们表格的顶部在某一评判者下相差约 2 分以内，所以顶端附近的排序处于噪声范围内；那个 397B“击败 GPT-5.4”的差距为 +0.46 （噪声），且尽管宣布为 Apache-2.0，该变体并不公开（HF 401）。

我们的多步结果（§3）建立在一个与他们单步基准不同、且未经复现的指标上；它指向同一方向（Qwen3.6 在模拟上更弱），但那是论点的趋同，而非确认。

8. 我会怎样把它接进系统

提示：用官方终端模拟系统提示把它作为环境来运行；只有当你想要通用输出时才用普通助手提示。这两种模式是不同的工作。
成本控制：模拟器角色用 enable_thinking=false 加一个 max_tokens 上限（§5）。开启推理时，按每步 ~1000–2500 tokens 预算。
闭环：把模型自身的预测喂回去，但在你有真实环境时以它为锚；预期格式严格性会很重要（回显行）。
占用：~20 GB 权重，64K 时峰值 ~27 GB。
自建还是采纳的问题：“从不脱离角色”是世界模型训练所固有的，还是说一个通用模型 + 语法约束解码就能弥合大部分差距？我们没有测试受约束通用模型这一替代方案——在采纳一个专用模型之前先权衡它。

本次评测的局限

小样本（N=1–5，无标准差）。每一个数字差距都是趋势，而非统计结果。
两项关键结果只有一个领域（终端序列）。“在循环中”守住角色仍有待在别处确认。
未隔离量化：两套 4-bit 配方略有不同；解码差距很可能与之相关，但此处未获证明。
尚未测试：随机/复杂场景、第二个领域、与基座 Qwen3.5 做三方对比以隔离微调的确切效应，以及轨迹验证器用例。
只有 35B 是公开的。 397B 变体无法下载。

来源：arXiv 2606.24597 · Qwen-AgentWorld-35B-A3B（Apache-2.0）。结果在发布前经内部交叉评审以排查偏差。★ = 单次、指示性测量。