llama.cpp
llama.cpp es el motor de inferencia fundamental en C++ para modelos GGUF, ofreciendo máximo control de bajo nivel sobre la caché KV, conteo de hilos y tamaño de contexto en el puerto 8080. Alimenta el backend de Ollama pero puede ejecutarse de forma independiente para ajuste fino en Apple Silicon.
llama.cpp es un motor de inferencia C++ de alto rendimiento que soporta modelos GGUF.
Instalación
brew install llama.cpp
llama-server -m model.gguf
Detalles
| Propiedad | Valor |
|---|---|
| Puerto por defecto | 8080 |
| Tipo de API | Compatible con OpenAI |
| Reporte de VRAM | No |
| Formato de modelo | GGUF |
| Detección | Endpoints /health + /props o detección de procesos lsof |
Notas
- llama.cpp comparte el puerto 8080 con mlx-lm. asiai lo detecta mediante los endpoints
/healthy/props. - El servidor puede iniciarse con tamaños de contexto y conteos de hilos personalizados para ajuste.
Ver también
Compara motores con asiai bench --engines llamacpp --- aprende cómo