llama.cpp

llama.cpp est le moteur d'inférence C++ fondamental pour les modèles GGUF, offrant un contrôle bas niveau maximal sur le KV cache, le nombre de threads et la taille de contexte sur le port 8080. Il alimente le backend d'Ollama mais peut être exécuté de manière autonome pour un réglage fin sur Apple Silicon.

llama.cpp est un moteur d'inférence C++ haute performance supportant les modèles GGUF.

Installation

brew install llama.cpp
llama-server -m model.gguf

Détails

Propriété	Valeur
Port par défaut	8080
Type d'API	Compatible OpenAI
Rapport VRAM	Non
Format de modèle	GGUF
Détection	Endpoints `/health` + `/props` ou détection de processus `lsof`

Notes

llama.cpp partage le port 8080 avec mlx-lm. asiai le détecte via les endpoints /health et /props.
Le serveur peut être démarré avec des tailles de contexte et des nombres de threads personnalisés pour le réglage.

Voir aussi

Comparez les moteurs avec asiai bench --engines llamacpp --- en savoir plus