llama.cpp

Name: asiai
Author: Jean-Marc Nahlovsky

llama.cpp ist die grundlegende C++-Inferenz-Engine für GGUF-Modelle, die maximale Low-Level-Kontrolle über KV Cache, Thread-Anzahl und Kontextgröße auf Port 8080 bietet. Es betreibt Ollamas Backend, kann aber eigenständig für Feinabstimmung auf Apple Silicon ausgeführt werden.

llama.cpp ist eine leistungsstarke C++-Inferenz-Engine mit GGUF-Modellunterstützung.

Installation

brew install llama.cpp
llama-server -m model.gguf

Details

Eigenschaft	Wert
Standardport	8080
API-Typ	OpenAI-kompatibel
VRAM-Berichterstattung	Nein
Modellformat	GGUF
Erkennung	`/health` + `/props`-Endpunkte oder `lsof`-Prozesserkennung

Hinweise

llama.cpp teilt Port 8080 mit mlx-lm. asiai erkennt es über die /health- und /props-Endpunkte.
Der Server kann mit benutzerdefinierten Kontextgrößen und Thread-Zahlen für Optimierung gestartet werden.

Siehe auch

Vergleichen Sie Engines mit asiai bench --engines llamacpp --- mehr erfahren