Vai al contenuto

llama.cpp

llama.cpp è il motore di inferenza C++ fondamentale per modelli GGUF, che offre il massimo controllo di basso livello su cache KV, conteggio thread e dimensione contesto sulla porta 8080. Alimenta il backend di Ollama ma può essere eseguito in modo indipendente per un tuning fine su Apple Silicon.

llama.cpp è un motore di inferenza C++ ad alte prestazioni che supporta modelli GGUF.

Installazione

brew install llama.cpp
llama-server -m model.gguf

Dettagli

Proprietà Valore
Porta predefinita 8080
Tipo API Compatibile con OpenAI
Report VRAM No
Formato modello GGUF
Rilevamento Endpoint /health + /props o rilevamento processi lsof

Note

  • llama.cpp condivide la porta 8080 con mlx-lm. asiai lo rileva tramite gli endpoint /health e /props.
  • Il server può essere avviato con dimensioni di contesto e conteggi thread personalizzati per il tuning.

Vedi anche

Confronta motori con asiai bench --engines llamacpp --- scopri come