Ollama
Ollama ist die beliebteste LLM-Inferenz-Engine für Mac, die ein llama.cpp-Backend mit GGUF-Modellen auf Port 11434 verwendet. In unseren Benchmarks auf M4 Pro 64 GB erreicht es 70 tok/s bei Qwen3-Coder-30B, ist aber 46% langsamer als LM Studio (MLX) beim Durchsatz.
Ollama ist der beliebteste lokale LLM-Runner. asiai nutzt seine native API.
Installation
brew install ollama
ollama serve
ollama pull gemma2:9b
Details
| Eigenschaft | Wert |
|---|---|
| Standardport | 11434 |
| API-Typ | Nativ (nicht-OpenAI) |
| VRAM-Berichterstattung | Ja |
| Modellformat | GGUF |
| Ladezeitmessung | Ja (über /api/generate-Kaltstart) |
Hinweise
- Ollama meldet die VRAM-Nutzung pro Modell, die asiai in Benchmark- und Monitor-Ausgaben anzeigt.
- Modellnamen verwenden das
Name:Tag-Format (z.B.gemma2:9b,qwen3.5:35b-a3b). - asiai sendet
temperature: 0für deterministische Benchmark-Ergebnisse.
Siehe auch
Sehen Sie, wie Ollama abschneidet: Ollama vs LM Studio Benchmark