Ollama
Ollama è il motore di inferenza LLM più popolare per Mac, usando un backend llama.cpp con modelli GGUF sulla porta 11434. Nei nostri benchmark su M4 Pro 64GB, raggiunge 70 tok/s con Qwen3-Coder-30B ma è il 46% più lento di LM Studio (MLX) nel throughput.
Ollama è il runner LLM locale più popolare. asiai usa la sua API nativa.
Installazione
brew install ollama
ollama serve
ollama pull gemma2:9b
Dettagli
| Proprietà | Valore |
|---|---|
| Porta predefinita | 11434 |
| Tipo API | Nativa (non OpenAI) |
| Report VRAM | Sì |
| Formato modello | GGUF |
| Misurazione tempo di caricamento | Sì (via avvio a freddo /api/generate) |
Note
- Ollama riporta l'utilizzo VRAM per modello, che asiai mostra nell'output di benchmark e monitor.
- I nomi dei modelli usano il formato
name:tag(es.gemma2:9b,qwen3.5:35b-a3b). - asiai invia
temperature: 0per risultati benchmark deterministici.
Vedi anche
Guarda come si confronta Ollama: Benchmark Ollama vs LM Studio