Wie man LLMs auf dem Mac benchmarkt
Sie betreiben ein lokales LLM auf Ihrem Mac? So messen Sie die tatsächliche Leistung — keine Vermutungen, kein „fühlt sich schnell an", sondern echte tok/s, TTFT, Stromverbrauch und Speichernutzung.
Warum benchmarken?
Dasselbe Modell läuft je nach Inferenz-Engine mit sehr unterschiedlichen Geschwindigkeiten. Auf Apple Silicon können MLX-basierte Engines (LM Studio, mlx-lm, oMLX) 2x schneller sein als llama.cpp-basierte Engines (Ollama) für dasselbe Modell. Ohne Messung verschenken Sie Leistung.
Schnellstart (2 Minuten)
1. asiai installieren
pip install asiai
Oder über Homebrew:
brew tap druide67/tap
brew install asiai
2. Ihre Engines erkennen
asiai detect
asiai findet automatisch laufende Engines (Ollama, LM Studio, llama.cpp, mlx-lm, oMLX, vLLM-MLX, Exo) auf Ihrem Mac.
3. Einen Benchmark starten
asiai bench
Das war's. asiai erkennt automatisch das beste Modell über Ihre Engines und führt einen Engine-übergreifenden Vergleich durch.
Was gemessen wird
| Metrik | Bedeutung |
|---|---|
| tok/s | Generierte Tokens pro Sekunde (nur Generierung, ohne Prompt-Verarbeitung) |
| TTFT | Time to First Token — Latenz vor Beginn der Generierung |
| Leistung | GPU + CPU Watt während der Inferenz (über IOReport, kein sudo nötig) |
| tok/s/W | Energieeffizienz — Tokens pro Sekunde pro Watt |
| VRAM | Vom Modell genutzter Speicher (native API oder geschätzt über ri_phys_footprint) |
| Stabilität | Varianz zwischen Durchläufen: stabil (<5% CV), variabel (<10%), instabil (>10%) |
| Thermisch | Ob Ihr Mac während des Benchmarks gedrosselt wurde |
Beispielausgabe
Mac16,11 — Apple M4 Pro RAM: 64.0 GB Pressure: normal
Benchmark: qwen3-coder-30b
Engine tok/s Tokens Duration TTFT VRAM Thermal
lmstudio 102.2 537 7.00s 0.29s 24.2 GB nominal
ollama 69.8 512 17.33s 0.18s 32.0 GB nominal
Winner: lmstudio (+46% tok/s)
Power Efficiency
lmstudio 102.2 tok/s @ 12.4W = 8.23 tok/s/W
ollama 69.8 tok/s @ 15.4W = 4.53 tok/s/W
Beispielausgabe eines echten Benchmarks auf M4 Pro 64 GB. Ihre Zahlen variieren je nach Hardware und Modell. Mehr Ergebnisse ansehen →
Erweiterte Optionen
Bestimmte Engines vergleichen
asiai bench --engines ollama,lmstudio,omlx
Mehrere Prompts und Durchläufe
asiai bench --prompts code,reasoning,tool_call --runs 3
Benchmark mit großem Kontext
asiai bench --context-size 64K
Teilbare Karte generieren
asiai bench --card --share
Erstellt ein Benchmark-Kartenbild und teilt die Ergebnisse mit dem Community-Leaderboard.
Apple Silicon Tipps
Speicher ist entscheidend
Auf einem 16-GB-Mac bleiben Sie bei Modellen unter 14 GB (geladen). MoE-Modelle (Qwen3.5-35B-A3B, 3B aktiv) sind ideal — sie liefern 35B-Klasse-Qualität bei 7B-Klasse-Speichernutzung.
Die Engine-Wahl ist wichtiger als gedacht
MLX-Engines sind auf Apple Silicon für die meisten Modelle deutlich schneller als llama.cpp. Sehen Sie unseren Ollama vs LM Studio Vergleich für echte Zahlen.
Thermische Drosselung
Das MacBook Air (ohne Lüfter) drosselt nach 5-10 Minuten dauerhafter Inferenz. Mac Mini/Studio/Pro bewältigen Dauerlasten ohne Drosselung. asiai erkennt und meldet thermische Drosselung automatisch.
Mit der Community vergleichen
Sehen Sie, wie Ihr Mac im Vergleich zu anderen Apple-Silicon-Maschinen abschneidet:
asiai compare
Oder besuchen Sie das Online-Leaderboard.
FAQ
F: Welche ist die schnellste LLM-Inferenz-Engine auf Apple Silicon? A: In unseren Benchmarks auf M4 Pro 64 GB ist LM Studio (MLX-Backend) am schnellsten bei der Token-Generierung — 46% schneller als Ollama (llama.cpp). Allerdings hat Ollama eine niedrigere TTFT (Time to First Token). Sehen Sie unseren detaillierten Vergleich.
F: Wie viel RAM brauche ich, um ein 30B-Modell auf dem Mac zu betreiben? A: Ein Q4_K_M-quantisiertes 30B-Modell nutzt je nach Engine 24-32 GB Unified Memory. Sie benötigen mindestens 32 GB RAM, idealerweise 64 GB, um Speicherdruck zu vermeiden. MoE-Modelle wie Qwen3.5-35B-A3B nutzen nur ~7 GB aktive Parameter.
F: Funktioniert asiai auf Intel-Macs? A: Nein. asiai erfordert Apple Silicon (M1/M2/M3/M4). Es nutzt macOS-spezifische APIs für GPU-Metriken, Leistungsüberwachung und Hardwareerkennung, die nur auf Apple Silicon verfügbar sind.
F: Ist Ollama oder LM Studio schneller auf M4? A: LM Studio ist schneller beim Durchsatz (102 tok/s vs 70 tok/s bei Qwen3-Coder-30B). Ollama ist schneller bei der First-Token-Latenz (0,18s vs 0,29s) und bei großen Kontextfenstern (>32K Tokens), wo der llama.cpp-Prefill bis zu 3x schneller ist.
F: Wie lange dauert ein Benchmark?
A: Ein Schnellbenchmark dauert etwa 2 Minuten. Ein vollständiger Engine-übergreifender Vergleich mit mehreren Prompts und Durchläufen dauert 10-15 Minuten. Verwenden Sie asiai bench --quick für einen schnellen Einzeldurchlauf-Test.
F: Kann ich meine Ergebnisse mit anderen Mac-Nutzern vergleichen?
A: Ja. Führen Sie asiai bench --share aus, um Ergebnisse anonym an das Community-Leaderboard zu übermitteln. Verwenden Sie asiai compare, um zu sehen, wie Ihr Mac im Vergleich zu anderen Apple-Silicon-Maschinen abschneidet.
Weiterführend
- Benchmark-Methodik — wie asiai zuverlässige Messungen sicherstellt
- Benchmark Best Practices — Tipps für genaue Ergebnisse
- Engine-Vergleich — Ollama vs LM Studio im direkten Vergleich