Exo

Exo consente l'inferenza LLM distribuita raggruppando la VRAM di più Mac Apple Silicon sulla rete locale, servendo sulla porta 52415. Permette di eseguire modelli da 70B+ parametri che non entrerebbero su una singola macchina, con scoperta automatica dei peer e un'API compatibile con OpenAI.

Exo consente l'inferenza distribuita tra più dispositivi Apple Silicon. Esegui modelli grandi (70B+) raggruppando la VRAM di diversi Mac.

Installazione

pip install exo-inference
exo

Oppure installa dal codice sorgente:

git clone https://github.com/exo-explore/exo.git
cd exo && pip install -e .
exo

Dettagli

Proprietà	Valore
Porta predefinita	52415
Tipo API	Compatibile con OpenAI
Report VRAM	Sì (aggregato tra i nodi del cluster)
Formato modello	GGUF / MLX
Rilevamento	Automatico via DEFAULT_URLS

Benchmarking

asiai bench --engines exo -m llama3.3:70b

Exo viene valutato come qualsiasi altro motore. asiai lo rileva automaticamente sulla porta 52415.

Note

Exo scopre i nodi peer automaticamente sulla rete locale.
La VRAM mostrata in asiai riflette la memoria totale aggregata da tutti i nodi del cluster.
I modelli grandi che non entrano su un singolo Mac possono funzionare senza problemi nel cluster.
Avvia exo su ogni Mac del cluster prima di eseguire i benchmark.

Vedi anche

Confronta motori con asiai bench --engines exo --- scopri come