Saltar a contenido

Ollama

Ollama es el motor de inferencia LLM más popular para Mac, usando un backend llama.cpp con modelos GGUF en el puerto 11434. En nuestros benchmarks con M4 Pro 64GB, alcanza 70 tok/s con Qwen3-Coder-30B pero es un 46% más lento que LM Studio (MLX) en rendimiento.

Ollama es el ejecutor de LLM local más popular. asiai usa su API nativa.

Instalación

brew install ollama
ollama serve
ollama pull gemma2:9b

Detalles

Propiedad Valor
Puerto por defecto 11434
Tipo de API Nativa (no OpenAI)
Reporte de VRAM
Formato de modelo GGUF
Medición de tiempo de carga Sí (vía arranque en frío de /api/generate)

Notas

  • Ollama reporta el uso de VRAM por modelo, que asiai muestra en la salida de benchmark y monitor.
  • Los nombres de modelos usan el formato name:tag (ej. gemma2:9b, qwen3.5:35b-a3b).
  • asiai envía temperature: 0 para resultados de benchmark deterministas.

Ver también

Mira cómo se compara Ollama: Benchmark Ollama vs LM Studio