MacでLLMをベンチマークする方法
Macでローカル LLMを実行していますか?実際のパフォーマンスの測定方法をご紹介します — 感覚ではなく、「なんとなく速い」でもなく、実際のtok/s、TTFT、消費電力、メモリ使用量です。
なぜベンチマークが必要なのか?
同じモデルでも推論エンジンによって速度が大きく異なります。Apple Siliconでは、MLXベースのエンジン(LM Studio、mlx-lm、oMLX)はllama.cppベースのエンジン(Ollama)と比較して、同じモデルで2倍速い場合があります。測定しなければ、パフォーマンスを活かしきれません。
クイックスタート(2分)
1. asiai をインストール
pip install asiai
またはHomebrew経由:
brew tap druide67/tap
brew install asiai
2. エンジンを検出
asiai detect
asiai はMac上で動作中のエンジン(Ollama、LM Studio、llama.cpp、mlx-lm、oMLX、vLLM-MLX、Exo)を自動的に検出します。
3. ベンチマークを実行
asiai bench
これだけです。asiai はエンジン間で最適なモデルを自動検出し、クロスエンジン比較を実行します。
測定される項目
| メトリクス | 意味 |
|---|---|
| tok/s | 1秒あたりの生成トークン数(生成のみ、プロンプト処理を除く) |
| TTFT | 最初のトークンまでの時間 — 生成開始までのレイテンシ |
| Power | 推論中のGPU + CPU消費電力(IOReport経由、sudo不要) |
| tok/s/W | エネルギー効率 — ワットあたりの1秒あたりトークン数 |
| VRAM | モデルが使用するメモリ(ネイティブAPIまたは ri_phys_footprint による推定) |
| Stability | 実行間のばらつき:stable(CV 5%未満)、variable(10%未満)、unstable(10%以上) |
| Thermal | ベンチマーク中にMacがスロットリングしたかどうか |
出力例
Mac16,11 — Apple M4 Pro RAM: 64.0 GB Pressure: normal
Benchmark: qwen3-coder-30b
Engine tok/s Tokens Duration TTFT VRAM Thermal
lmstudio 102.2 537 7.00s 0.29s 24.2 GB nominal
ollama 69.8 512 17.33s 0.18s 32.0 GB nominal
Winner: lmstudio (+46% tok/s)
Power Efficiency
lmstudio 102.2 tok/s @ 12.4W = 8.23 tok/s/W
ollama 69.8 tok/s @ 15.4W = 4.53 tok/s/W
M4 Pro 64GBでの実際のベンチマーク出力例。ハードウェアとモデルによって結果は異なります。さらに結果を見る →
詳細オプション
特定のエンジンを比較
asiai bench --engines ollama,lmstudio,omlx
複数プロンプトと実行回数
asiai bench --prompts code,reasoning,tool_call --runs 3
大規模コンテキストベンチマーク
asiai bench --context-size 64K
共有可能なカードを生成
asiai bench --card --share
ベンチマークカード画像を作成し、結果をコミュニティリーダーボードと共有します。
Apple Siliconのヒント
メモリが重要
16GB Macでは、14GB以下のモデル(ロード時)を使用してください。MoEモデル(Qwen3.5-35B-A3B、3Bアクティブ)が最適です — 7Bクラスのメモリ使用量で35Bクラスの品質を提供します。
エンジン選択は想像以上に重要
MLXエンジンはほとんどのモデルでApple Silicon上のllama.cppよりも大幅に高速です。実際の数値についてはOllama対LM Studio比較をご覧ください。
サーマルスロットリング
MacBook Air(ファンなし)は5〜10分の持続推論でスロットリングが発生します。Mac Mini/Studio/Proはスロットリングなしで持続ワークロードに対応します。asiai はサーマルスロットリングを自動的に検出・報告します。
コミュニティと比較
他のApple Siliconマシンと自分のMacを比較できます:
asiai compare
またはオンラインリーダーボードをご覧ください。
FAQ
Q: Apple Siliconで最速のLLM推論エンジンは? A: M4 Pro 64GBでのベンチマークでは、LM Studio(MLXバックエンド)がトークン生成で最速です — Ollama(llama.cpp)より46%高速。ただし、Ollamaの方がTTFT(最初のトークンまでの時間)は低いです。詳細な比較をご覧ください。
Q: Macで30Bモデルを実行するにはどのくらいのRAMが必要ですか? A: Q4_K_M量子化の30Bモデルは、エンジンによって24〜32 GBのユニファイドメモリを使用します。最低32 GB、理想的には64 GBのRAMが必要です。Qwen3.5-35B-A3Bなどの MoEモデルはアクティブパラメータが約7 GBのみです。
Q: asiai はIntel Macで動作しますか? A: いいえ。asiai はApple Silicon(M1/M2/M3/M4)が必要です。Apple Siliconでのみ利用可能なGPUメトリクス、電力監視、ハードウェア検出用のmacOS固有APIを使用しています。
Q: M4ではOllamaとLM Studioのどちらが速いですか? A: LM Studioはスループットで高速です(Qwen3-Coder-30Bで102 tok/s対70 tok/s)。Ollamaは最初のトークンレイテンシ(0.18s対0.29s)と大規模コンテキストウィンドウ(32Kトークン超)で高速で、llama.cppのプリフィルは最大3倍速です。
Q: ベンチマークにはどのくらい時間がかかりますか?
A: クイックベンチマークは約2分です。複数プロンプトと実行回数を含む完全なクロスエンジン比較は10〜15分かかります。高速な単一実行テストには asiai bench --quick を使用してください。
Q: 他のMacユーザーと結果を比較できますか?
A: はい。asiai bench --share を実行して結果を匿名でコミュニティリーダーボードに提出できます。asiai compare で他のApple Siliconマシンとの比較ができます。
さらに詳しく
- ベンチマーク手法 — asiai が信頼性の高い測定を確保する方法
- ベンチマークのベストプラクティス — 正確な結果を得るためのヒント
- エンジン比較 — Ollama対LM Studioの直接対決