Ollama

Name: asiai
Author: Jean-Marc Nahlovsky

Ollama é o motor de inferência LLM mais popular para Mac, usando backend llama.cpp com modelos GGUF na porta 11434. Em nossos benchmarks no M4 Pro 64GB, atinge 70 tok/s no Qwen3-Coder-30B mas é 46% mais lento que o LM Studio (MLX) em throughput.

Ollama é o runner de LLM local mais popular. O asiai usa sua API nativa.

Configuração

brew install ollama
ollama serve
ollama pull gemma2:9b

Detalhes

Propriedade	Valor
Porta padrão	11434
Tipo de API	Nativa (não-OpenAI)
Reporte de VRAM	Sim
Formato de modelo	GGUF
Medição de tempo de carregamento	Sim (via cold start `/api/generate`)

Notas

O Ollama reporta uso de VRAM por modelo, que o asiai exibe na saída de benchmark e monitoramento.
Os nomes de modelos usam o formato name:tag (ex: gemma2:9b, qwen3.5:35b-a3b).
O asiai envia temperature: 0 para resultados determinísticos de benchmark.

Veja também

Veja como o Ollama se compara: Benchmark Ollama vs LM Studio