Exo

Exo permite inferência LLM distribuída agrupando VRAM de múltiplos Macs com Apple Silicon na sua rede local, servindo na porta 52415. Ele permite rodar modelos de 70B+ parâmetros que não caberiam em uma única máquina, com descoberta automática de peers e API compatível com OpenAI.

Exo permite inferência distribuída entre múltiplos dispositivos Apple Silicon. Rode modelos grandes (70B+) agrupando VRAM de vários Macs.

Configuração

pip install exo-inference
exo

Ou instale a partir do código-fonte:

git clone https://github.com/exo-explore/exo.git
cd exo && pip install -e .
exo

Detalhes

Propriedade	Valor
Porta padrão	52415
Tipo de API	Compatível com OpenAI
Reporte de VRAM	Sim (agregado entre nós do cluster)
Formato de modelo	GGUF / MLX
Detecção	Auto via DEFAULT_URLS

Benchmarking

asiai bench --engines exo -m llama3.3:70b

O Exo é benchmarked como qualquer outro motor. O asiai o auto-detecta na porta 52415.

Notas

O Exo descobre nós peers automaticamente na rede local.
A VRAM exibida no asiai reflete a memória total agregada de todos os nós do cluster.
Modelos grandes que não cabem em um único Mac podem rodar sem problemas no cluster.
Inicie o exo em cada Mac do cluster antes de executar benchmarks.

Veja também

Compare motores com asiai bench --engines exo --- saiba como