Exo

Exo ermöglicht verteilte LLM-Inferenz, indem es VRAM über mehrere Apple-Silicon-Macs in Ihrem lokalen Netzwerk auf Port 52415 bündelt. Es ermöglicht die Ausführung von 70B+-Parametermodellen, die nicht auf eine einzelne Maschine passen würden, mit automatischer Peer-Erkennung und einer OpenAI-kompatiblen API.

Exo ermöglicht verteilte Inferenz über mehrere Apple-Silicon-Geräte. Führen Sie große Modelle (70B+) aus, indem Sie VRAM von mehreren Macs bündeln.

Installation

pip install exo-inference
exo

Oder aus dem Quellcode installieren:

git clone https://github.com/exo-explore/exo.git
cd exo && pip install -e .
exo

Details

Eigenschaft	Wert
Standardport	52415
API-Typ	OpenAI-kompatibel
VRAM-Berichterstattung	Ja (aggregiert über Cluster-Knoten)
Modellformat	GGUF / MLX
Erkennung	Auto über DEFAULT_URLS

Benchmarking

asiai bench --engines exo -m llama3.3:70b

Exo wird wie jede andere Engine benchmarkt. asiai erkennt es automatisch auf Port 52415.

Hinweise

Exo entdeckt Peer-Knoten automatisch im lokalen Netzwerk.
Die in asiai angezeigte VRAM spiegelt den gesamten über alle Cluster-Knoten aggregierten Speicher wider.
Große Modelle, die nicht auf einen einzelnen Mac passen, können nahtlos über den Cluster laufen.
Starten Sie exo auf jedem Mac im Cluster, bevor Sie Benchmarks ausführen.

Siehe auch

Vergleichen Sie Engines mit asiai bench --engines exo --- mehr erfahren