llama.cpp

llama.cpp es el motor de inferencia fundamental en C++ para modelos GGUF, ofreciendo máximo control de bajo nivel sobre la caché KV, conteo de hilos y tamaño de contexto en el puerto 8080. Alimenta el backend de Ollama pero puede ejecutarse de forma independiente para ajuste fino en Apple Silicon.

llama.cpp es un motor de inferencia C++ de alto rendimiento que soporta modelos GGUF.

Instalación

brew install llama.cpp
llama-server -m model.gguf

Detalles

Propiedad	Valor
Puerto por defecto	8080
Tipo de API	Compatible con OpenAI
Reporte de VRAM	No
Formato de modelo	GGUF
Detección	Endpoints `/health` + `/props` o detección de procesos `lsof`

Notas

llama.cpp comparte el puerto 8080 con mlx-lm. asiai lo detecta mediante los endpoints /health y /props.
El servidor puede iniciarse con tamaños de contexto y conteos de hilos personalizados para ajuste.

Ver también

Compara motores con asiai bench --engines llamacpp --- aprende cómo