Apple Silicon 上の Qwen-AgentWorld-35B：エージェントループに組み込む価値はあるか？

ローカルモデルを動かし、自律エージェントを構築する人向けの評価ブリーフ。正体：これは言語ワールドモデルである――ある操作の後にターミナルが出力する内容を予測するものであって、自ら行動はしない。動作環境：MLX、または 1 行のメタデータオーバーライドを伴う llama.cpp/Metal（素の GGUF はそれなしではロードされない）。公式 MLX ビルドは存在しない。我々が測定した唯一の差別化要素：汎用モデルがドリフトするマルチステップのシーケンスにおいても、シミュレータの役割を保持する。 そのコスト：過剰な推論が深刻だが、抑制可能。数値は小規模 N かつ方向性を示すものであり、それぞれにサンプルサイズを付記した。著者によるベンチマーク数値は主張として明示している。

M5 Max 上で asiai を用い、MLX 4-bit、一度に 1 エンジンのみで測定、2026-06。訂正は github.com/druide67/asiai 経由で歓迎する。

使うべき場合 / 使わないべき場合

使うべき用途：安価なエージェントロールアウトのための環境シミュレータ、ツール/ターミナル出力のモック、または LLM-as-judge の代わりとなる軌跡検証器（検証器のユースケースはここでは未検証――§6 を参照）。アシスタントとしてプロンプトすれば、素の 35B 汎用モデルとしても十分通用する。

使わないべき用途：日常のアシスタントとして使うこと――著者はチャット/コードの利用パスを提供しておらず、急峻な過剰推論税を抱える（抑制可能、§5 を参照）。また「GPT-5.4 を打ち負かす」397B バリアントを待つべきではない――それはダウンロード不可能だ（Apache-2.0 の告知にもかかわらず HF は 401 を返す）。

1. 実行可能性と再現（まずこれを読むこと）

自分のマシンで動かなければ、ほかのすべては意味をなさない。率直な結論：

今日動作するパスは 2 つ。どちらもターンキーではない。 公式 MLX ビルドは存在しない――我々はコミュニティ製の MLX 変換を使い、それが測定対象のパスである。 GGUF も llama.cpp / Metal でロードできるが、そのままでは無理だ。素の状態では missing tensor 'blk.40.attn_norm.weight' で失敗する（build 9780、2026-06-25 に再確認）。原因は変換ツールの off-by-one であって、重みの欠落ではない――GGUF は block_count=41（インデックス 40 に余分な MTP レイヤー）を宣言する一方で、実在する 40 個のレイヤー 0–39 のみを同梱しているため、llama.cpp は存在するはずのなかったレイヤーを要求してしまう。ロード時にメタデータをオーバーライドすれば、ロードされ生成も行う： --override-kv qwen35moe.block_count=int:40 --override-kv qwen35moe.nextn_predict_layers=int:0。 Ollama と LM Studio は llama.cpp をラップするが --override-kv を確実には露出しないため、この 2 つは未検証として扱うこと。公式のサーバーデプロイは vLLM / SGLang / Transformers。
ロードできる量子化は、正しい長い思考連鎖を出力する証拠にはならない―― ロードだけでなく生成を検証すること。

再現セットアップ：

	リポジトリ（Hugging Face）	サイズ
AgentWorld（特化型）	`jedisct1/Qwen-AgentWorld-35B-A3B-oQ4-MLX`	~20 GB
Qwen3.6（汎用ベースライン）	`mlx-community/Qwen3.6-35B-A3B-4bit`	~19 GB

mlx-lm 0.31.3 · M5 Max 128 GB · サンプリング temp 0.6 / top-p 0.95 / top-k 20 · 一度に 1 モデルのみロード。

トークンバジェットは第一級のセットアップ変数である

AgentWorld は非常に長い推論トレースを出力する。max_tokens=4096 ではその出力は 答えの前で切り詰められ、偽の失敗としてスコアされる。一部の些細なケースでは、完了するのに 8192–12288 の推論トークンが必要だ。低いバジェットで再実行する者は誰でも、 AgentWorld についてハーネス由来のアーティファクトであってモデルの誤りではない、より悪く見える数値を得ることになる。

RAM / コンテキストの収まり：重みは ~20 GB；128 GB の Mac 上で 64K コンテキスト時のピークは ~27 GB；KV キャッシュは 4K から 64K にかけて ~5 GB しか増えない（共有ハイブリッドアーキテクチャの特性）。64 GB の Mac は縮小したコンテキストで快適に動作する；36–48 GB は窮屈だが 4K–32K では実用可能だ。

2. その正体と、著者によるポジショニング

言語ワールドモデル：状態と操作（型付けされたコマンド）が与えられると、長い思考連鎖を通じて次の観測（ターミナルが返すもの）を予測する。7 つのデジタルドメイン（MCP、Search、 Terminal、SWE、Android、Web、OS）。それは行動するのではなく環境そのものになるよう訓練されている。

著者はこれをアシスタントではなくワールドモデルとして提供する：システムプロンプトはシミュレーションプロンプトであり、文書化されたチャット/コードの利用パスは存在しない。そのため、アシスタントとして使うと答える代わりにコンソール出力をシミュレートしてしまうのではないか、という懸念は当を得ている。我々のテストはこれにニュアンスを加える（§4）：標準的なアシスタントプロンプトを与えれば、汎用モデルと同等にコードを書き、推論する。 挙動を決めるのはプロンプトであって、失われた能力ではない。

ワールドモデルという語について

最も一般的なコミュニティの異論は用語に関するものだ：これは次のテキスト状態を予測する自己回帰型 LLM であって、LeCun の意味での非自己回帰型 / エネルギーベースのワールドモデルではない。この名前が、モデルが満たすと主張していない期待を生む前に、知っておく価値がある。

検証済みスペック（HF モデルカード、明示されているもの）：


パラメータ数	34.66 B 合計 · ~3 B アクティブ（MoE）
アーキテクチャ	`qwen3_5_moe`、ハイブリッド Attention + Gated-DeltaNet
エキスパート	256（8 ルーテッド + 1 共有）
コンテキスト	最大 256K トークン
ライセンス	Apache-2.0（BF16 で ~65 GB）

3. 差別化要素：マルチステップの役割忠実性

これは唯一の、新しく擁護可能な結果であり――そして著者自身のベンチマークが決して測定しないまさにその点だ（それはシングルステップのみ）。テスト内容：状態を構築するコマンドを連鎖させ（ディレクトリを作成し、その中に入り、ファイルを書き込み、読み返す）、各ステップで正確なターミナル出力をモデルに予測させる。

これは信頼性の特性――フォーマット/役割の規律――として捉えること、理解上の優位性ではない。 Qwen3.6 はターミナルを完璧に理解している（作業ディレクトリを追跡し、正しい行数を数える）；違いは、それが時折役割を逸脱する点にある。

テスト	AgentWorld	Qwen3.6	注記
もっともらしい出力（`ls`、`git`、`ps`）― N=3	9/9	9/9	同等
シーケンス A ― 6 ステップ、アンカーあり（4 ラン）	0 役割逸脱 / 24 ステップ	断続的	役割保持
シーケンス B ― 8 ステップ、アンカーあり（3 ラン）	0 役割逸脱 / 24 ステップ	断続的	役割保持
クローズドループ（自己フィード）― N=2	6/6 ×2	断続的	役割保持

率直な読み解き：AgentWorld は 2 つのシーケンスと 4 ランにわたり、観測した 48 ステップ中 0 ステップで役割を逸脱した。Qwen3.6 は役割を断続的に逸脱する――アンカーありのランは繰り返しの間で 0/6 → 6/6 と振れた（N=2）ため、これは方向性であって、レートではない。失敗するとき、それは出力をシミュレートする代わりに操作の JSON をそのまま吐き戻す：

$ cat log.txt              # log.txt was just deleted → env must return an error

AgentWorld (in role):
  root@host:/home/user# cat log.txt
  cat: log.txt: No such file or directory
  root@host:/home/user#

Qwen3.6 (out of role, ~1 run in 2 here):
  [{"keystrokes": "cat log.txt\n", "duration": 0.1}]    # echoes the input command
                                                        # instead of the output

正しい答えは Qwen3.6 の出力にしばしば存在している――これはフォーマット/役割の失敗であって、誤解ではない。各ステップが次のステップにとって機械可読でなければならないループにおいては、1 つの役割逸脱が連鎖を汚染する。それこそ AgentWorld が回避するものだ。

測定上の留保（開示済み）

コマンドエコー行のバイト完全一致スコアリングは厳格であり、我々のシーケンス D 対シーケンス E のフィクスチャは、cd の観測がエコーを含むかどうかについて一貫性を欠いていた――そのため役割忠実性メトリックには既知の歪みがある。方向性は 4 つのファイルにわたり頑健だが、正確なギャップはそうではない。

4. 汎用能力：ベースは劣化していない

オーナーの問い（ワールドモデルのファインチューンはベース LLM を壊したか？）には、見出しではなく 1 つの冷静なセクションで答える。短い答え：いいえ――N=3、方向性。

タスク	AgentWorld	Qwen3.6
推論（strawberry の 'r' トラップを含む検証可能なパズル 5 問）	15/15	15/15	同等
コード生成（4 つの関数、ユニットテストに対して実行）	12/12	12/12	同等

（シミュレータプロンプトではなく）アシスタントプロンプトで実行すると、AgentWorld は正しいコードを書き、正しく推論し、汎用モデルと同等だ。それは「脱線」しない――たまたま過剰に推論する有能な汎用モデルである。

5. コスト：過剰推論税――とその対処法

これを脚注から採用ゲートへ格上げする。なぜなら、ステップごとの検証器にとっては、これが決め手となる数値だからだ――ただし、それには修正策がある。

決定論的なターミナルケースで測定（ケースごとに N=2）：

モード	AgentWorld	Qwen3.6
推論オン（デフォルトのシミュレータモード）	中央値 1140 tok/予測、最大 2558 · ~14 s · 8/8 完全一致	504 tok · ~4.5 s · 8/8
推論オフ（`enable_thinking=false`）	45 tok/予測 · ~0.5 s · 8/8 完全一致	45 tok · ~0.4 s · 8/8

AgentWorld は汎用モデルより ~2.3 倍多くのトークンを出力し、些細な cd ; pwd でさえその推論は 3 ラン中 2 ランで 8192 トークンを超過した。最終的な答えは正しい―― これはステップごとのレイテンシ/計算の税であって、正確性の欠陥ではない。

対処法：上限を設ける

シミュレータの役割で推論をオフにすると、決定論的なケースにおいてバイト完全一致の忠実性を損なうことなく（依然として 8/8）、トークンを ~25 倍、レイテンシを ~28 倍削減する。ステップごとの検証器やモックとしては、enable_thinking=false と max_tokens の上限を設けて実行すること。留保：これは決定論的なケースでのみテストされている――推論が本当に役立つ出力（曖昧な状態、複雑な内容）では、推論オフは忠実性を損なうかもしれない。ここでは未検証。

6. 性能（シングルラン、参考値 ★）

同じファミリー、同じアーキテクチャであるため、プロファイルは近い。これらは傾向として読むこと。

指標	AgentWorld	Qwen3.6	読み解き
最初のトークンまでの時間 ★	~360 ms	~510 ms	AW が先行
デコードスループット ★	~110 t/s	~117 t/s	~7% 遅い
64K コンテキストでのデコード	~132 t/s	~160 t/s	~73% 維持
メモリ 4K → 64K	+5 GB	+5 GB	ハイブリッドアーキ、AW 固有ではない
コンテキストキャッシュ（13K トークンのプレフィックス再利用）	~×21	~×23	MLX の特性、モデルのものではない

~7% のデコードギャップは、最も可能性が高いのは 4-bit のレシピ（AgentWorld は線形アテンションの射影を 6-bit で保護；Qwen3.6 は MoE ゲートを 8-bit で保護）が、不均等な出力長において作用したものだ――交絡であって、モデルの不利ではない。プロンプトキャッシングは両モデルで同一の mlx-lm の機能であり、その ~20 倍のゲインはキャッシュされたプレフィックス長に比例してスケールするもので、AgentWorld の特性ではない。

未検証だが価値が高い（コミュニティの第 2 のユースケース）：次状態予測を軌跡検証器として使うこと――実環境が予測から乖離したとき、それは経路を外れたエージェントを示すシグナルとなる。我々はその偽陽性 / 偽陰性の挙動を測定していない。未解決の問い。

7. 著者が主張すること

著者のベンチマーク――主張であって、測定ではない

彼ら自身のベンチマーク（AgentWorldBench）では、AgentWorld-35B は 56.4 を記録し、 Claude Sonnet 4.6（56.0）と肩を並べる。彼らが特化に帰するゲインは、ベースの Qwen3.5 に対するアブレーションによるもの（自己申告であり、Qwen3.6 との直接対決ではない）：ツール使用（MCP）+21.9、ソフトウェアエンジニアリング +18.1、ターミナル +10.2。主張：ワールドモデルの特化は世代的な改善に勝る――汎用モデルの Qwen3.6 はシミュレーション忠実性においてベースを下回る（42.9 対 47.7）。なぜなら、それは状態を予測するのではなく 行動するようチューニングされているからだ。

これらの数値は、単一ソースの社内ベンチマークで、LLM ジャッジによって採点され、公開時点で生後 48 時間未満のモデルに対するもの――第三者による再現はない。彼らの表の最上位は単一のジャッジの下で ~2 ポイント以内に収まっているため、最上位付近の順位はノイズの範囲内だ；397B の「GPT-5.4 を打ち負かす」マージンは +0.46（ノイズ）であり、そのバリアントは Apache-2.0 の告知にもかかわらず非公開（HF 401）だ。

我々のマルチステップ結果（§3）は、彼らのシングルステップベンチとは異なる、再現されていないメトリックに基づくものだ；それは同じ方向（Qwen3.6 はシミュレーションが弱い）を指しているが、それはテーゼの収束であって、確証ではない。

8. 私ならどう組み込むか

プロンプト：環境として動かすには公式のターミナルシミュレーションシステムプロンプトを使う；汎用的な出力が欲しい場合にのみ素のアシスタントプロンプトを使う。この 2 つのモードは別々の仕事だ。
コスト制御：シミュレータの役割には enable_thinking=false + max_tokens の上限（§5）。推論オンの場合、ステップあたり ~1000–2500 トークンを見積もること。
クローズドループ：モデル自身の予測をフィードバックするが、実環境があるときはそれにアンカーすること；フォーマットの厳格さが効いてくると予期せよ（エコー行）。
フットプリント：重み ~20 GB、64K でのピーク ~27 GB。
自作するか採用するかの問い：「決して役割を逸脱しない」はワールドモデル訓練に内在するものなのか、それとも汎用モデル + 文法制約付きデコードでギャップの大半を埋められるのか？我々は制約付き汎用モデルという代替案をテストしていない――専用モデルを採用する前にこれを天秤にかけること。

このベンチの限界

小規模サンプル（N=1–5、標準偏差なし）。すべての数値ギャップは傾向であって、統計的結果ではない。
2 つの主要結果（ターミナルシーケンス）は単一ドメイン。「ループ内」での役割保持は、ほかの場所で確認することが残されている。
量子化が分離されていない：2 つの 4-bit レシピはわずかに異なる；デコードギャップはおそらくそれに結びついているが、ここでは証明されていない。
まだ未検証：ランダム/複雑なシナリオ、第 2 のドメイン、ファインチューンの正確な効果を分離するためのベース Qwen3.5 を交えた三つ巴、そして軌跡検証器のユースケース。
公開されているのは 35B のみ。 397B バリアントはダウンロード不可能だ。

出典：arXiv 2606.24597 · Qwen-AgentWorld-35B-A3B（Apache-2.0）。結果は公開前にバイアスについて内部相互レビュー済み。★ = 単一の参考測定。