Zum Inhalt

llama.cpp

llama.cpp ist die grundlegende C++-Inferenz-Engine für GGUF-Modelle, die maximale Low-Level-Kontrolle über KV Cache, Thread-Anzahl und Kontextgröße auf Port 8080 bietet. Es betreibt Ollamas Backend, kann aber eigenständig für Feinabstimmung auf Apple Silicon ausgeführt werden.

llama.cpp ist eine leistungsstarke C++-Inferenz-Engine mit GGUF-Modellunterstützung.

Installation

brew install llama.cpp
llama-server -m model.gguf

Details

Eigenschaft Wert
Standardport 8080
API-Typ OpenAI-kompatibel
VRAM-Berichterstattung Nein
Modellformat GGUF
Erkennung /health + /props-Endpunkte oder lsof-Prozesserkennung

Hinweise

  • llama.cpp teilt Port 8080 mit mlx-lm. asiai erkennt es über die /health- und /props-Endpunkte.
  • Der Server kann mit benutzerdefinierten Kontextgrößen und Thread-Zahlen für Optimierung gestartet werden.

Siehe auch

Vergleichen Sie Engines mit asiai bench --engines llamacpp --- mehr erfahren