Ollama
Ollama est le moteur d'inférence LLM le plus populaire pour Mac, utilisant un backend llama.cpp avec des modèles GGUF sur le port 11434. Dans nos benchmarks sur M4 Pro 64 Go, il atteint 70 tok/s sur Qwen3-Coder-30B mais est 46% plus lent que LM Studio (MLX) en débit.
Ollama est le runner LLM local le plus populaire. asiai utilise son API native.
Installation
brew install ollama
ollama serve
ollama pull gemma2:9b
Détails
| Propriété | Valeur |
|---|---|
| Port par défaut | 11434 |
| Type d'API | Native (non-OpenAI) |
| Rapport VRAM | Oui |
| Format de modèle | GGUF |
| Mesure du temps de chargement | Oui (via démarrage à froid /api/generate) |
Notes
- Ollama rapporte l'utilisation VRAM par modèle, qu'asiai affiche dans les sorties benchmark et monitor.
- Les noms de modèles utilisent le format
nom:tag(ex.gemma2:9b,qwen3.5:35b-a3b). - asiai envoie
temperature: 0pour des résultats de benchmark déterministes.
Voir aussi
Voyez comment Ollama se compare : Benchmark Ollama vs LM Studio