Zum Inhalt

Ollama vs LM Studio: Apple Silicon Benchmark

Welche Inferenz-Engine ist schneller auf Ihrem Mac? Wir haben Ollama (llama.cpp-Backend) und LM Studio (MLX-Backend) auf demselben Modell und derselben Hardware mit asiai 1.4.0 im März 2026 im Direktvergleich getestet.

Testaufbau

Hardware Mac Mini M4 Pro, 64 GB Unified Memory
Modell Qwen3-Coder-30B (MoE-Architektur, Q4_K_M / MLX 4-bit)
asiai-Version 1.4.0
Methodik 1 Warmup + 1 gemessener Durchlauf pro Engine, temperature=0, Modell zwischen Engines entladen (vollständige Methodik)

Ergebnisse

Metrik LM Studio (MLX) Ollama (llama.cpp) Differenz
Durchsatz 102,2 tok/s 69,8 tok/s +46%
TTFT 291 ms 175 ms Ollama schneller
GPU-Leistung 12,4 W 15,4 W -20%
Effizienz 8,2 tok/s/W 4,5 tok/s/W +82%
Prozessspeicher 21,4 GB (RSS) 41,6 GB (RSS) -49%

Zu den Speicherzahlen

Ollama weist den KV Cache für das vollständige Kontextfenster (262K Tokens) vorab zu, was seinen Speicherverbrauch aufbläht. LM Studio weist den KV Cache bei Bedarf zu. Der Prozess-RSS spiegelt den gesamten vom Engine-Prozess genutzten Speicher wider, nicht nur die Modellgewichte.

Wichtige Erkenntnisse

LM Studio gewinnt beim Durchsatz (+46%)

Die native Metal-Optimierung von MLX nutzt die Bandbreite von Apple Silicons Unified Memory besser aus. Bei MoE-Architekturen ist der Vorteil erheblich. Bei der größeren Variante Qwen3.5-35B-A3B haben wir einen noch größeren Abstand gemessen: 71,2 vs 30,3 tok/s (2,3x).

Ollama gewinnt bei TTFT

Ollamas llama.cpp-Backend verarbeitet den initialen Prompt schneller (175ms vs 291ms). Für interaktive Nutzung mit kurzen Prompts fühlt sich Ollama dadurch reaktionsschneller an. Bei längeren Generierungsaufgaben dominiert der Durchsatzvorteil von LM Studio die Gesamtzeit.

LM Studio ist energieeffizienter (+82%)

Mit 8,2 tok/s pro Watt gegenüber 4,5 generiert LM Studio fast doppelt so viele Tokens pro Joule. Das ist wichtig für Laptops im Akkubetrieb und für Dauerlasten auf Always-on-Servern.

Speichernutzung: der Kontext zählt

Der große Unterschied im Prozessspeicher (21,4 vs 41,6 GB) ist teilweise darauf zurückzuführen, dass Ollama den KV Cache für sein maximales Kontextfenster vorab zuweist. Für einen fairen Vergleich betrachten Sie den tatsächlich während Ihrer Arbeitslast genutzten Kontext, nicht den Spitzen-RSS.

Wann welche Engine verwenden

Anwendungsfall Empfohlen Warum
Maximaler Durchsatz LM Studio (MLX) +46% schnellere Generierung
Interaktiver Chat (niedrige Latenz) Ollama Niedrigere TTFT (175 vs 291 ms)
Akkulaufzeit / Effizienz LM Studio 82% mehr tok/s pro Watt
Docker / API-Kompatibilität Ollama Breiteres Ökosystem, OpenAI-kompatible API
Speicherbeschränkt (16-GB-Mac) LM Studio Niedrigerer RSS, KV Cache bei Bedarf
Multi-Modell-Serving Ollama Integrierte Modellverwaltung, keep_alive

Andere Modelle

Der Durchsatzunterschied variiert je nach Modellarchitektur:

Modell LM Studio (MLX) Ollama (llama.cpp) Abstand
Qwen3-Coder-30B (MoE) 102,2 tok/s 69,8 tok/s +46%
Qwen3.5-35B-A3B (MoE) 71,2 tok/s 30,3 tok/s +135%

MoE-Modelle zeigen die größten Unterschiede, da MLX das Sparse-Expert-Routing auf Metal effizienter handhabt.

Eigenen Benchmark durchführen

pip install asiai
asiai bench --engines ollama,lmstudio --prompts code --runs 3 --card

asiai vergleicht Engines nebeneinander mit demselben Modell, denselben Prompts und derselben Hardware. Modelle werden automatisch zwischen Engines entladen, um Speicherkonflikte zu vermeiden.

Vollständige Methodik ansehen · Community-Leaderboard ansehen · Wie man LLMs auf dem Mac benchmarkt