跳转至

Qwen-AgentWorld-35B 在 Apple Silicon 上:值得在你的 agent 循环里占一个位置吗?

一份面向本地模型运行者与自主 agent 构建者的评估简报。 它是什么:一个语言世界模型——它预测某个动作之后终端会 输出什么,它本身并不执行动作。能跑什么:MLX,或带一行元数据覆盖的 llama.cpp/Metal(不加这一行,纯 GGUF 无法加载);没有 官方 MLX 构建。我们实测到的唯一差异化优势: 在多步序列中通用模型会漂移,而它能始终守住模拟器的角色。 它的代价:严重的过度推理——可以封顶。数据为小样本、方向性, 每个都标注了样本量;作者基准的数字标记为声称。

在 M5 Max 上用 asiai 测得,MLX 4-bit,单引擎逐一运行,2026-06。 欢迎通过 github.com/druide67/asiai 提交更正。

何时使用 / 何时不用

适合用作廉价 agent rollout 的环境模拟器、工具/终端输出的 mock,或者替代 LLM-as-judge 的轨迹验证器 (验证器用例在此未经测试——见 §6)。如果你按助手方式给它提示, 它作为一个普通的 35B 通用模型同样站得住脚。

不适合用作你的日常助手:作者并未提供任何 chat/code 使用 路径,且它带有沉重的过度推理税(可封顶,见 §5)。也别等那个 “击败 GPT-5.4”的 397B 变体——它无法下载 (尽管宣布为 Apache-2.0,HF 仍返回 401)。

1. 可运行性与复现(先读这一节)

如果它在你的机器上跑不起来,其它一切都无关紧要。直白的结论:

  • 如今有两条路可行;两条都不是开箱即用。 没有官方 MLX 构建—— 我们用的是社区的 MLX 转换版本,那也是我们实测所走的路径。GGUF 在 llama.cpp / Metal 上同样能加载,但并非开箱即用:照原样会以 missing tensor 'blk.40.attn_norm.weight' 失败(build 9780,于 2026-06-25 再次确认)。 原因是转换器的差一错误,而非权重缺失——该 GGUF 声明了 block_count=41(在索引 40 处多了一层 MTP),却只装载了 40 层真实 层 0–39,于是 llama.cpp 去请求一个本就不该存在的层。在加载时覆盖 元数据,它便能加载并生成--override-kv qwen35moe.block_count=int:40 --override-kv qwen35moe.nextn_predict_layers=int:0。 Ollama 和 LM Studio 封装了 llama.cpp,但并不可靠地暴露 --override-kv,因此 这两者按未测试对待。官方的服务端部署是 vLLM / SGLang / Transformers。
  • 能加载的量化并不证明它能输出正确的长链式思维—— 要验证生成,而不只是加载。

复现配置:

仓库(Hugging Face) 大小
AgentWorld(专用模型) jedisct1/Qwen-AgentWorld-35B-A3B-oQ4-MLX ~20 GB
Qwen3.6(通用基线) mlx-community/Qwen3.6-35B-A3B-4bit ~19 GB

mlx-lm 0.31.3 · M5 Max 128 GB · 采样 temp 0.6 / top-p 0.95 / top-k 20 · 同一时刻只加载一个模型。

Token 预算是一等的配置变量

AgentWorld 会产生很长的推理轨迹。在 max_tokens=4096 下,它的输出 会在给出答案之前被截断,并被记为假失败。在某些平凡情形下它需要 8192–12288 个推理 token 才能完成。任何人在低预算下 重跑,都会给 AgentWorld 得到更难看的数字,那是测试框架的产物, 而非模型错误。

RAM / 上下文占用:权重 ~20 GB;在 128 GB Mac 上 64K 上下文时峰值 ~27 GB; KV 缓存从 4K 到 64K 仅增长约 5 GB(这是共享混合 架构的特性)。一台 64 GB Mac 在缩减上下文下可从容运行;36–48 GB 偏紧,但在 4K–32K 下可用。

2. 它是什么,以及作者如何定位它

一个语言世界模型:给定一个状态和一个动作(一条带类型的命令),它 通过一段长链式思维预测下一个观测(终端返回什么)。七个数字领域(MCP、 Search、Terminal、SWE、Android、Web、OS)。它被训练为成为环境本身,而非 在环境中行动。

作者将它发布为一个世界模型,而非助手:系统提示是 模拟提示,且没有任何文档化的 chat/code 使用路径。因此一个合理的 担忧是,把它当助手用时,它会模拟一段控制台输出,而不是 回答问题。我们的测试为此提供了细微差别(§4):用一个标准助手提示,它的写码 与推理都与通用模型相当。行为由提示决定, 而非由某种丢失的能力决定。

关于世界模型一词

社区最常见的反对意见是术语层面的:这是一个 做下一文本状态预测的自回归 LLM,而非 LeCun 意义上的非自回归 / 基于能量的世界模型。在这个名字让你产生模型并未声称能满足的 预期之前,值得了解这一点。

已核实的规格(HF 模型卡,公开可见):

参数量 34.66 B 总量 · ~3 B 激活(MoE)
架构 qwen3_5_moe,混合 Attention + Gated-DeltaNet
专家 256(8 路由 + 1 共享)
上下文 最高 256K tokens
许可证 Apache-2.0(BF16 下 ~65 GB)

3. 差异化优势:多步角色保真度

这是唯一一项新的、站得住脚的结果——也恰恰是作者自家 基准从未测量过的(它只有单步)。测试是:链接若干会 构建状态的命令(创建目录、进入它、写一个文件、再读回来),并在每一步 让模型预测确切的终端输出。

把它定性为一种可靠性属性——格式/角色纪律——而非 理解能力上的优势。Qwen3.6 完全理解终端(它能追踪 工作目录、数对行数);区别在于它有时会脱离角色

测试 AgentWorld Qwen3.6 备注
合理输出(lsgitps)—— N=3 9/9 9/9 持平
序列 A —— 6 步,有锚定(4 次运行) 0 次脱离角色 / 24 步 间歇性 守住角色
序列 B —— 8 步,有锚定(3 次运行) 0 次脱离角色 / 24 步 间歇性 守住角色
闭环(自我喂入)—— N=2 6/6 ×2 间歇性 守住角色

诚实解读:在两个序列、四次运行的48 个观测步中,AgentWorld 脱离角色 0 次。 Qwen3.6 会间歇性脱离角色——它的锚定运行在重复之间 从 0/6 → 6/6 摆动(N=2),所以这是方向性的,而非一个比率。当 它失败时,它会复述动作 JSON,而不是模拟输出:

$ cat log.txt              # log.txt was just deleted → env must return an error

AgentWorld (in role):
  root@host:/home/user# cat log.txt
  cat: log.txt: No such file or directory
  root@host:/home/user#

Qwen3.6 (out of role, ~1 run in 2 here):
  [{"keystrokes": "cat log.txt\n", "duration": 0.1}]    # echoes the input command
                                                        # instead of the output

正确答案往往就在 Qwen3.6 的输出里——这是一次格式/角色 失败,而非理解错误。对于一个每一步都必须能被下一步机器读取的 循环来说,一次脱离角色就会污染整条链,而这正是 AgentWorld 所避免的。

测量注意事项(已披露)

对命令回显行做逐字节精确评分很严格,而我们的序列 D 与 序列 E 的固定样本,在 cd 观测是否包含回显这一点上并不一致—— 因此角色保真度指标存在一处已知的小瑕疵。在四个文件上方向 稳健;精确的差距则不然。

4. 通用能力:基座并未退化

机主关心的问题(世界模型微调是否破坏了基座 LLM?)只得到一个 冷静的章节,而非头条。简短回答:没有——N=3,方向性。

任务 AgentWorld Qwen3.6
推理(5 道可验证谜题,含 strawberry-'r' 陷阱) 15/15 15/15 持平
代码生成(4 个函数,对单元测试执行 12/12 12/12 持平

用助手提示(而非模拟器提示)运行时,AgentWorld 写出正确 代码并正确推理,与通用模型持平。它不会“跑偏”——它 是一个恰好会过度推理的称职通用模型。

5. 代价:过度推理税——以及补救办法

把它从脚注提升为采纳关口,因为对于一个逐步验证器而言,它 是决定性的数字——但它有解。

在确定性终端用例上测得(每个用例 N=2):

模式 AgentWorld Qwen3.6
推理开启(默认模拟器模式) 中位数 1140 tok/预测,最大 2558 · ~14 s · 8/8 精确 504 tok · ~4.5 s · 8/8
推理关闭enable_thinking=false 45 tok/预测 · ~0.5 s · 8/8 精确 45 tok · ~0.4 s · 8/8

AgentWorld 比通用模型多输出约 2.3× 的 token,而在一个平凡的 cd ; pwd 上 它的推理在 3 次运行中有 2 次跑过了 8192 tokens。最终答案是正确的—— 这是每一步的延迟/算力税,而非正确性缺陷。

补救办法:给它封顶

在模拟器角色中关闭推理,会把 token 削减约 25×、延迟 约 28×,且在确定性用例上不损失逐字节保真度(仍为 8/8)。 对于逐步验证器或 mock,用 enable_thinking=false 加一个 max_tokens 上限来运行它。注意:这仅在确定性用例上测过—— 在那些推理确实有帮助的输出上(模糊状态、复杂 内容),关闭推理可能损失保真度。此处未经测试。

6. 性能(单次运行,指示性 ★)

同一系列、同一架构,所以各项画像很接近。请将其当作趋势来读。

指标 AgentWorld Qwen3.6 解读
首 token 时间 ★ ~360 ms ~510 ms AW 领先
解码吞吐 ★ ~110 t/s ~117 t/s 慢约 7%
64K 上下文下解码 ~132 t/s ~160 t/s 保留约 73%
内存 4K → 64K +5 GB +5 GB 混合架构,非 AW 特有
上下文缓存(13K-token 前缀复用) ~×21 ~×23 MLX 属性,非模型本身

约 7% 的解码差距,最可能源自 4-bit 配方(AgentWorld 用 6-bit 保护其 线性注意力投影;Qwen3.6 用 8-bit 保护 MoE 门控),且建立在 不等长的输出上——是一个混杂因素,而非模型劣势。提示缓存是 mlx-lm 的特性,两个模型上完全相同;其约 20× 的增益随缓存前缀 长度而变,它不是 AgentWorld 的属性。

未经测试但高价值(社区的 #2 用例):把下一状态 预测用作轨迹验证器——当真实环境与 预测发生分歧时,那就标示出一个偏离轨道的 agent。我们没有测量它的 假阳性 / 假阴性行为。悬而未决的问题。

7. 作者的声称

作者基准——一项声称,而非一次测量

在他们自家的基准(AgentWorldBench)上,AgentWorld-35B 得 56.4,与 Claude Sonnet 4.6(56.0)持平。他们将增益归因于专门化,通过 对基座 Qwen3.5 的消融得出(自报,而非与 Qwen3.6 正面对决):工具使用(MCP)+21.9、软件工程 +18.1、 终端 +10.2。论点:世界模型专门化胜过代际改进—— 通用模型 Qwen3.6 在模拟保真度上得分低于基座(42.9 对 47.7), 因为它被调校去行动,而非去预测状态

这些数字来自一个单一来源、内部的基准,由 LLM 评判者打分,模型在发布时不到 48 小时——没有第三方 复现。他们表格的顶部在某一评判者下相差约 2 分以内,所以 顶端附近的排序处于噪声范围内;那个 397B“击败 GPT-5.4”的差距为 +0.46 (噪声),且尽管宣布为 Apache-2.0,该变体并不公开(HF 401)。

我们的多步结果(§3)建立在一个与他们单步基准不同、且未经复现的指标上; 它指向同一方向(Qwen3.6 在模拟上更弱),但 那是论点的趋同,而非确认。

8. 我会怎样把它接进系统

  • 提示:用官方终端模拟系统提示把它作为 环境来运行;只有当你想要通用输出时才用普通助手提示。这 两种模式是不同的工作。
  • 成本控制:模拟器角色用 enable_thinking=false 加一个 max_tokens 上限(§5)。开启推理时,按每步 ~1000–2500 tokens 预算。
  • 闭环:把模型自身的预测喂回去,但在你有真实环境时 以它为锚;预期格式严格性会很重要(回显行)。
  • 占用:~20 GB 权重,64K 时峰值 ~27 GB。
  • 自建还是采纳的问题:“从不脱离角色”是 世界模型训练所固有的,还是说一个通用模型 + 语法约束解码就能弥合 大部分差距?我们没有测试受约束通用模型这一替代方案——在 采纳一个专用模型之前先权衡它。

本次评测的局限

  • 小样本(N=1–5,无标准差)。每一个数字差距都是趋势, 而非统计结果。
  • 两项关键结果只有一个领域(终端序列)。“在循环中”守住角色 仍有待在别处确认。
  • 未隔离量化:两套 4-bit 配方略有不同;解码 差距很可能与之相关,但此处未获证明。
  • 尚未测试:随机/复杂场景、第二个领域、与 基座 Qwen3.5 做三方对比以隔离微调的确切效应,以及轨迹验证器 用例。
  • 只有 35B 是公开的。 397B 变体无法下载。

来源:arXiv 2606.24597 · Qwen-AgentWorld-35B-A3B(Apache-2.0)。结果在发布前经内部交叉评审以排查偏差。★ = 单次、指示性测量。