Qwen-AgentWorld-35B 在 Apple Silicon 上:值得在你的 agent 循环里占一个位置吗?
一份面向本地模型运行者与自主 agent 构建者的评估简报。 它是什么:一个语言世界模型——它预测某个动作之后终端会 输出什么,它本身并不执行动作。能跑什么:MLX,或带一行元数据覆盖的 llama.cpp/Metal(不加这一行,纯 GGUF 无法加载);没有 官方 MLX 构建。我们实测到的唯一差异化优势: 在多步序列中通用模型会漂移,而它能始终守住模拟器的角色。 它的代价:严重的过度推理——可以封顶。数据为小样本、方向性, 每个都标注了样本量;作者基准的数字标记为声称。
在 M5 Max 上用
asiai测得,MLX 4-bit,单引擎逐一运行,2026-06。 欢迎通过 github.com/druide67/asiai 提交更正。
何时使用 / 何时不用
适合用作廉价 agent rollout 的环境模拟器、工具/终端输出的 mock,或者替代 LLM-as-judge 的轨迹验证器 (验证器用例在此未经测试——见 §6)。如果你按助手方式给它提示, 它作为一个普通的 35B 通用模型同样站得住脚。
不适合用作你的日常助手:作者并未提供任何 chat/code 使用 路径,且它带有沉重的过度推理税(可封顶,见 §5)。也别等那个 “击败 GPT-5.4”的 397B 变体——它无法下载 (尽管宣布为 Apache-2.0,HF 仍返回 401)。
1. 可运行性与复现(先读这一节)
如果它在你的机器上跑不起来,其它一切都无关紧要。直白的结论:
- 如今有两条路可行;两条都不是开箱即用。 没有官方 MLX 构建——
我们用的是社区的 MLX 转换版本,那也是我们实测所走的路径。GGUF
在 llama.cpp / Metal 上同样能加载,但并非开箱即用:照原样会以
missing tensor 'blk.40.attn_norm.weight'失败(build 9780,于 2026-06-25 再次确认)。 原因是转换器的差一错误,而非权重缺失——该 GGUF 声明了block_count=41(在索引 40 处多了一层 MTP),却只装载了 40 层真实 层 0–39,于是 llama.cpp 去请求一个本就不该存在的层。在加载时覆盖 元数据,它便能加载并生成:--override-kv qwen35moe.block_count=int:40 --override-kv qwen35moe.nextn_predict_layers=int:0。 Ollama 和 LM Studio 封装了 llama.cpp,但并不可靠地暴露--override-kv,因此 这两者按未测试对待。官方的服务端部署是 vLLM / SGLang / Transformers。 - 能加载的量化并不证明它能输出正确的长链式思维—— 要验证生成,而不只是加载。
复现配置:
| 仓库(Hugging Face) | 大小 | |
|---|---|---|
| AgentWorld(专用模型) | jedisct1/Qwen-AgentWorld-35B-A3B-oQ4-MLX |
~20 GB |
| Qwen3.6(通用基线) | mlx-community/Qwen3.6-35B-A3B-4bit |
~19 GB |
mlx-lm 0.31.3 · M5 Max 128 GB · 采样 temp 0.6 / top-p 0.95 / top-k 20 · 同一时刻只加载一个模型。
Token 预算是一等的配置变量
AgentWorld 会产生很长的推理轨迹。在 max_tokens=4096 下,它的输出
会在给出答案之前被截断,并被记为假失败。在某些平凡情形下它需要
8192–12288 个推理 token 才能完成。任何人在低预算下
重跑,都会给 AgentWorld 得到更难看的数字,那是测试框架的产物,
而非模型错误。
RAM / 上下文占用:权重 ~20 GB;在 128 GB Mac 上 64K 上下文时峰值 ~27 GB; KV 缓存从 4K 到 64K 仅增长约 5 GB(这是共享混合 架构的特性)。一台 64 GB Mac 在缩减上下文下可从容运行;36–48 GB 偏紧,但在 4K–32K 下可用。
2. 它是什么,以及作者如何定位它
一个语言世界模型:给定一个状态和一个动作(一条带类型的命令),它 通过一段长链式思维预测下一个观测(终端返回什么)。七个数字领域(MCP、 Search、Terminal、SWE、Android、Web、OS)。它被训练为成为环境本身,而非 在环境中行动。
作者将它发布为一个世界模型,而非助手:系统提示是 模拟提示,且没有任何文档化的 chat/code 使用路径。因此一个合理的 担忧是,把它当助手用时,它会模拟一段控制台输出,而不是 回答问题。我们的测试为此提供了细微差别(§4):用一个标准助手提示,它的写码 与推理都与通用模型相当。行为由提示决定, 而非由某种丢失的能力决定。
关于世界模型一词
社区最常见的反对意见是术语层面的:这是一个 做下一文本状态预测的自回归 LLM,而非 LeCun 意义上的非自回归 / 基于能量的世界模型。在这个名字让你产生模型并未声称能满足的 预期之前,值得了解这一点。
已核实的规格(HF 模型卡,公开可见):
| 参数量 | 34.66 B 总量 · ~3 B 激活(MoE) |
| 架构 | qwen3_5_moe,混合 Attention + Gated-DeltaNet |
| 专家 | 256(8 路由 + 1 共享) |
| 上下文 | 最高 256K tokens |
| 许可证 | Apache-2.0(BF16 下 ~65 GB) |
3. 差异化优势:多步角色保真度
这是唯一一项新的、站得住脚的结果——也恰恰是作者自家 基准从未测量过的(它只有单步)。测试是:链接若干会 构建状态的命令(创建目录、进入它、写一个文件、再读回来),并在每一步 让模型预测确切的终端输出。
把它定性为一种可靠性属性——格式/角色纪律——而非 理解能力上的优势。Qwen3.6 完全理解终端(它能追踪 工作目录、数对行数);区别在于它有时会脱离角色。
| 测试 | AgentWorld | Qwen3.6 | 备注 |
|---|---|---|---|
合理输出(ls、git、ps)—— N=3 |
9/9 | 9/9 | 持平 |
| 序列 A —— 6 步,有锚定(4 次运行) | 0 次脱离角色 / 24 步 | 间歇性 | 守住角色 |
| 序列 B —— 8 步,有锚定(3 次运行) | 0 次脱离角色 / 24 步 | 间歇性 | 守住角色 |
| 闭环(自我喂入)—— N=2 | 6/6 ×2 | 间歇性 | 守住角色 |
诚实解读:在两个序列、四次运行的48 个观测步中,AgentWorld 脱离角色 0 次。 Qwen3.6 会间歇性脱离角色——它的锚定运行在重复之间 从 0/6 → 6/6 摆动(N=2),所以这是方向性的,而非一个比率。当 它失败时,它会复述动作 JSON,而不是模拟输出:
$ cat log.txt # log.txt was just deleted → env must return an error
AgentWorld (in role):
root@host:/home/user# cat log.txt
cat: log.txt: No such file or directory
root@host:/home/user#
Qwen3.6 (out of role, ~1 run in 2 here):
[{"keystrokes": "cat log.txt\n", "duration": 0.1}] # echoes the input command
# instead of the output
正确答案往往就在 Qwen3.6 的输出里——这是一次格式/角色 失败,而非理解错误。对于一个每一步都必须能被下一步机器读取的 循环来说,一次脱离角色就会污染整条链,而这正是 AgentWorld 所避免的。
测量注意事项(已披露)
对命令回显行做逐字节精确评分很严格,而我们的序列 D 与
序列 E 的固定样本,在 cd 观测是否包含回显这一点上并不一致——
因此角色保真度指标存在一处已知的小瑕疵。在四个文件上方向
稳健;精确的差距则不然。
4. 通用能力:基座并未退化
机主关心的问题(世界模型微调是否破坏了基座 LLM?)只得到一个 冷静的章节,而非头条。简短回答:没有——N=3,方向性。
| 任务 | AgentWorld | Qwen3.6 | |
|---|---|---|---|
| 推理(5 道可验证谜题,含 strawberry-'r' 陷阱) | 15/15 | 15/15 | 持平 |
| 代码生成(4 个函数,对单元测试执行) | 12/12 | 12/12 | 持平 |
用助手提示(而非模拟器提示)运行时,AgentWorld 写出正确 代码并正确推理,与通用模型持平。它不会“跑偏”——它 是一个恰好会过度推理的称职通用模型。
5. 代价:过度推理税——以及补救办法
把它从脚注提升为采纳关口,因为对于一个逐步验证器而言,它 是决定性的数字——但它有解。
在确定性终端用例上测得(每个用例 N=2):
| 模式 | AgentWorld | Qwen3.6 |
|---|---|---|
| 推理开启(默认模拟器模式) | 中位数 1140 tok/预测,最大 2558 · ~14 s · 8/8 精确 | 504 tok · ~4.5 s · 8/8 |
推理关闭(enable_thinking=false) |
45 tok/预测 · ~0.5 s · 8/8 精确 | 45 tok · ~0.4 s · 8/8 |
AgentWorld 比通用模型多输出约 2.3× 的 token,而在一个平凡的 cd ; pwd 上
它的推理在 3 次运行中有 2 次跑过了 8192 tokens。最终答案是正确的——
这是每一步的延迟/算力税,而非正确性缺陷。
补救办法:给它封顶
在模拟器角色中关闭推理,会把 token 削减约 25×、延迟
约 28×,且在确定性用例上不损失逐字节保真度(仍为 8/8)。
对于逐步验证器或 mock,用 enable_thinking=false 加一个
max_tokens 上限来运行它。注意:这仅在确定性用例上测过——
在那些推理确实有帮助的输出上(模糊状态、复杂
内容),关闭推理可能损失保真度。此处未经测试。
6. 性能(单次运行,指示性 ★)
同一系列、同一架构,所以各项画像很接近。请将其当作趋势来读。
| 指标 | AgentWorld | Qwen3.6 | 解读 |
|---|---|---|---|
| 首 token 时间 ★ | ~360 ms | ~510 ms | AW 领先 |
| 解码吞吐 ★ | ~110 t/s | ~117 t/s | 慢约 7% |
| 64K 上下文下解码 | ~132 t/s | ~160 t/s | 保留约 73% |
| 内存 4K → 64K | +5 GB | +5 GB | 混合架构,非 AW 特有 |
| 上下文缓存(13K-token 前缀复用) | ~×21 | ~×23 | MLX 属性,非模型本身 |
约 7% 的解码差距,最可能源自 4-bit 配方(AgentWorld 用 6-bit 保护其 线性注意力投影;Qwen3.6 用 8-bit 保护 MoE 门控),且建立在 不等长的输出上——是一个混杂因素,而非模型劣势。提示缓存是 mlx-lm 的特性,两个模型上完全相同;其约 20× 的增益随缓存前缀 长度而变,它不是 AgentWorld 的属性。
未经测试但高价值(社区的 #2 用例):把下一状态 预测用作轨迹验证器——当真实环境与 预测发生分歧时,那就标示出一个偏离轨道的 agent。我们没有测量它的 假阳性 / 假阴性行为。悬而未决的问题。
7. 作者的声称
作者基准——一项声称,而非一次测量
在他们自家的基准(AgentWorldBench)上,AgentWorld-35B 得 56.4,与 Claude Sonnet 4.6(56.0)持平。他们将增益归因于专门化,通过 对基座 Qwen3.5 的消融得出(自报,而非与 Qwen3.6 正面对决):工具使用(MCP)+21.9、软件工程 +18.1、 终端 +10.2。论点:世界模型专门化胜过代际改进—— 通用模型 Qwen3.6 在模拟保真度上得分低于基座(42.9 对 47.7), 因为它被调校去行动,而非去预测状态。
这些数字来自一个单一来源、内部的基准,由 LLM 评判者打分,模型在发布时不到 48 小时——没有第三方 复现。他们表格的顶部在某一评判者下相差约 2 分以内,所以 顶端附近的排序处于噪声范围内;那个 397B“击败 GPT-5.4”的差距为 +0.46 (噪声),且尽管宣布为 Apache-2.0,该变体并不公开(HF 401)。
我们的多步结果(§3)建立在一个与他们单步基准不同、且未经复现的指标上; 它指向同一方向(Qwen3.6 在模拟上更弱),但 那是论点的趋同,而非确认。
8. 我会怎样把它接进系统
- 提示:用官方终端模拟系统提示把它作为 环境来运行;只有当你想要通用输出时才用普通助手提示。这 两种模式是不同的工作。
- 成本控制:模拟器角色用
enable_thinking=false加一个max_tokens上限(§5)。开启推理时,按每步 ~1000–2500 tokens 预算。 - 闭环:把模型自身的预测喂回去,但在你有真实环境时 以它为锚;预期格式严格性会很重要(回显行)。
- 占用:~20 GB 权重,64K 时峰值 ~27 GB。
- 自建还是采纳的问题:“从不脱离角色”是 世界模型训练所固有的,还是说一个通用模型 + 语法约束解码就能弥合 大部分差距?我们没有测试受约束通用模型这一替代方案——在 采纳一个专用模型之前先权衡它。
本次评测的局限
- 小样本(N=1–5,无标准差)。每一个数字差距都是趋势, 而非统计结果。
- 两项关键结果只有一个领域(终端序列)。“在循环中”守住角色 仍有待在别处确认。
- 未隔离量化:两套 4-bit 配方略有不同;解码 差距很可能与之相关,但此处未获证明。
- 尚未测试:随机/复杂场景、第二个领域、与 基座 Qwen3.5 做三方对比以隔离微调的确切效应,以及轨迹验证器 用例。
- 只有 35B 是公开的。 397B 变体无法下载。
来源:arXiv 2606.24597 · Qwen-AgentWorld-35B-A3B(Apache-2.0)。结果在发布前经内部交叉评审以排查偏差。★ = 单次、指示性测量。