コンテンツにスキップ

MacでLLMをベンチマークする方法

Macでローカル LLMを実行していますか?実際のパフォーマンスの測定方法をご紹介します — 感覚ではなく、「なんとなく速い」でもなく、実際のtok/s、TTFT、消費電力、メモリ使用量です。

なぜベンチマークが必要なのか?

同じモデルでも推論エンジンによって速度が大きく異なります。Apple Siliconでは、MLXベースのエンジン(LM Studio、mlx-lm、oMLX)はllama.cppベースのエンジン(Ollama)と比較して、同じモデルで2倍速い場合があります。測定しなければ、パフォーマンスを活かしきれません。

クイックスタート(2分)

1. asiai をインストール

pip install asiai

またはHomebrew経由:

brew tap druide67/tap
brew install asiai

2. エンジンを検出

asiai detect

asiai はMac上で動作中のエンジン(Ollama、LM Studio、llama.cpp、mlx-lm、oMLX、vLLM-MLX、Exo)を自動的に検出します。

3. ベンチマークを実行

asiai bench

これだけです。asiai はエンジン間で最適なモデルを自動検出し、クロスエンジン比較を実行します。

測定される項目

メトリクス 意味
tok/s 1秒あたりの生成トークン数(生成のみ、プロンプト処理を除く)
TTFT 最初のトークンまでの時間 — 生成開始までのレイテンシ
Power 推論中のGPU + CPU消費電力(IOReport経由、sudo不要)
tok/s/W エネルギー効率 — ワットあたりの1秒あたりトークン数
VRAM モデルが使用するメモリ(ネイティブAPIまたは ri_phys_footprint による推定)
Stability 実行間のばらつき:stable(CV 5%未満)、variable(10%未満)、unstable(10%以上)
Thermal ベンチマーク中にMacがスロットリングしたかどうか

出力例

Mac16,11 — Apple M4 Pro  RAM: 64.0 GB  Pressure: normal

Benchmark: qwen3-coder-30b

  Engine        tok/s   Tokens Duration     TTFT       VRAM    Thermal
  lmstudio      102.2      537    7.00s    0.29s    24.2 GB    nominal
  ollama         69.8      512   17.33s    0.18s    32.0 GB    nominal

  Winner: lmstudio (+46% tok/s)

  Power Efficiency
    lmstudio     102.2 tok/s @ 12.4W = 8.23 tok/s/W
    ollama        69.8 tok/s @ 15.4W = 4.53 tok/s/W

M4 Pro 64GBでの実際のベンチマーク出力例。ハードウェアとモデルによって結果は異なります。さらに結果を見る →

詳細オプション

特定のエンジンを比較

asiai bench --engines ollama,lmstudio,omlx

複数プロンプトと実行回数

asiai bench --prompts code,reasoning,tool_call --runs 3

大規模コンテキストベンチマーク

asiai bench --context-size 64K

共有可能なカードを生成

asiai bench --card --share

ベンチマークカード画像を作成し、結果をコミュニティリーダーボードと共有します。

Apple Siliconのヒント

メモリが重要

16GB Macでは、14GB以下のモデル(ロード時)を使用してください。MoEモデル(Qwen3.5-35B-A3B、3Bアクティブ)が最適です — 7Bクラスのメモリ使用量で35Bクラスの品質を提供します。

エンジン選択は想像以上に重要

MLXエンジンはほとんどのモデルでApple Silicon上のllama.cppよりも大幅に高速です。実際の数値についてはOllama対LM Studio比較をご覧ください。

サーマルスロットリング

MacBook Air(ファンなし)は5〜10分の持続推論でスロットリングが発生します。Mac Mini/Studio/Proはスロットリングなしで持続ワークロードに対応します。asiai はサーマルスロットリングを自動的に検出・報告します。

コミュニティと比較

他のApple Siliconマシンと自分のMacを比較できます:

asiai compare

またはオンラインリーダーボードをご覧ください。

FAQ

Q: Apple Siliconで最速のLLM推論エンジンは? A: M4 Pro 64GBでのベンチマークでは、LM Studio(MLXバックエンド)がトークン生成で最速です — Ollama(llama.cpp)より46%高速。ただし、Ollamaの方がTTFT(最初のトークンまでの時間)は低いです。詳細な比較をご覧ください。

Q: Macで30Bモデルを実行するにはどのくらいのRAMが必要ですか? A: Q4_K_M量子化の30Bモデルは、エンジンによって24〜32 GBのユニファイドメモリを使用します。最低32 GB、理想的には64 GBのRAMが必要です。Qwen3.5-35B-A3Bなどの MoEモデルはアクティブパラメータが約7 GBのみです。

Q: asiai はIntel Macで動作しますか? A: いいえ。asiai はApple Silicon(M1/M2/M3/M4)が必要です。Apple Siliconでのみ利用可能なGPUメトリクス、電力監視、ハードウェア検出用のmacOS固有APIを使用しています。

Q: M4ではOllamaとLM Studioのどちらが速いですか? A: LM Studioはスループットで高速です(Qwen3-Coder-30Bで102 tok/s対70 tok/s)。Ollamaは最初のトークンレイテンシ(0.18s対0.29s)と大規模コンテキストウィンドウ(32Kトークン超)で高速で、llama.cppのプリフィルは最大3倍速です。

Q: ベンチマークにはどのくらい時間がかかりますか? A: クイックベンチマークは約2分です。複数プロンプトと実行回数を含む完全なクロスエンジン比較は10〜15分かかります。高速な単一実行テストには asiai bench --quick を使用してください。

Q: 他のMacユーザーと結果を比較できますか? A: はい。asiai bench --share を実行して結果を匿名でコミュニティリーダーボードに提出できます。asiai compare で他のApple Siliconマシンとの比較ができます。

さらに詳しく