Aller au contenu

llama.cpp

llama.cpp est le moteur d'inférence C++ fondamental pour les modèles GGUF, offrant un contrôle bas niveau maximal sur le KV cache, le nombre de threads et la taille de contexte sur le port 8080. Il alimente le backend d'Ollama mais peut être exécuté de manière autonome pour un réglage fin sur Apple Silicon.

llama.cpp est un moteur d'inférence C++ haute performance supportant les modèles GGUF.

Installation

brew install llama.cpp
llama-server -m model.gguf

Détails

Propriété Valeur
Port par défaut 8080
Type d'API Compatible OpenAI
Rapport VRAM Non
Format de modèle GGUF
Détection Endpoints /health + /props ou détection de processus lsof

Notes

  • llama.cpp partage le port 8080 avec mlx-lm. asiai le détecte via les endpoints /health et /props.
  • Le serveur peut être démarré avec des tailles de contexte et des nombres de threads personnalisés pour le réglage.

Voir aussi

Comparez les moteurs avec asiai bench --engines llamacpp --- en savoir plus