Ollama vs LM Studio: Apple Siliconベンチマーク
Macで最も速い推論エンジンはどちらでしょうか?2026年3月にasiai 1.4.0を使用して、Ollama(llama.cppバックエンド)とLM Studio(MLXバックエンド)を同一モデル・同一ハードウェアで直接比較しました。
テストセットアップ
| ハードウェア | Mac Mini M4 Pro、64 GBユニファイドメモリ |
| モデル | Qwen3-Coder-30B(MoEアーキテクチャ、Q4_K_M / MLX 4-bit) |
| asiai バージョン | 1.4.0 |
| 手法 | 1回ウォームアップ + エンジンごと1回測定、temperature=0、エンジン間でモデルアンロード(詳細手法) |
結果
| メトリクス | LM Studio (MLX) | Ollama (llama.cpp) | 差異 |
|---|---|---|---|
| スループット | 102.2 tok/s | 69.8 tok/s | +46% |
| TTFT | 291 ms | 175 ms | Ollamaが高速 |
| GPU電力 | 12.4 W | 15.4 W | -20% |
| 効率 | 8.2 tok/s/W | 4.5 tok/s/W | +82% |
| プロセスメモリ | 21.4 GB (RSS) | 41.6 GB (RSS) | -49% |
メモリ数値について
Ollamaはフルコンテキストウィンドウ(262Kトークン)用にKVキャッシュを事前割り当てするため、メモリフットプリントが膨らみます。LM StudioはKVキャッシュをオンデマンドで割り当てます。プロセスRSSはモデルウェイトだけでなく、エンジンプロセスが使用する総メモリを反映しています。
主な知見
LM Studioがスループットで勝利(+46%)
MLXのネイティブMetal最適化により、Apple Siliconのユニファイドメモリからより多くの帯域幅を引き出します。MoEアーキテクチャでは、その優位性は顕著です。より大きなQwen3.5-35B-A3Bバリアントでは、さらに大きな差を計測しました:71.2対30.3 tok/s(2.3倍)。
OllamaがTTFTで勝利
Ollamaのllama.cppバックエンドは初期プロンプトをより速く処理します(175ms対291ms)。短いプロンプトでのインタラクティブな使用では、Ollamaの方がレスポンスが良く感じられます。長い生成タスクでは、LM Studioのスループットの優位性が総時間を支配します。
LM Studioの方が電力効率が高い(+82%)
8.2 tok/s/W対4.5で、LM Studioは1ジュールあたりほぼ2倍のトークンを生成します。バッテリー駆動のノートパソコンや常時稼働サーバーでの持続ワークロードにとって重要です。
メモリ使用量:コンテキストが重要
プロセスメモリの大きな差(21.4対41.6 GB)は、部分的にOllamaが最大コンテキストウィンドウ用にKVキャッシュを事前割り当てすることに起因します。公平な比較のためには、ピークRSSではなく、ワークロード中の実際のコンテキスト使用量を考慮してください。
各エンジンの推奨用途
| 用途 | 推奨 | 理由 |
|---|---|---|
| 最大スループット | LM Studio (MLX) | 46%高速な生成 |
| インタラクティブチャット(低レイテンシ) | Ollama | TTFTが低い(175対291 ms) |
| バッテリー寿命 / 効率 | LM Studio | ワットあたり82%多いtok/s |
| Docker / API互換性 | Ollama | より広いエコシステム、OpenAI互換API |
| メモリ制約(16GB Mac) | LM Studio | RSS低、オンデマンドKVキャッシュ |
| マルチモデルサービング | Ollama | 組み込みモデル管理、keep_alive |
他のモデル
スループットの差はモデルアーキテクチャによって異なります:
| モデル | LM Studio (MLX) | Ollama (llama.cpp) | 差 |
|---|---|---|---|
| Qwen3-Coder-30B (MoE) | 102.2 tok/s | 69.8 tok/s | +46% |
| Qwen3.5-35B-A3B (MoE) | 71.2 tok/s | 30.3 tok/s | +135% |
MoEモデルでは最大の差が見られます。MLXがMetal上でスパースエキスパートルーティングをより効率的に処理するためです。
自分でベンチマークを実行
pip install asiai
asiai bench --engines ollama,lmstudio --prompts code --runs 3 --card
asiai は同じモデル、同じプロンプト、同じハードウェアでエンジンを並べて比較します。メモリ競合を防ぐため、エンジン間でモデルは自動的にアンロードされます。