Exo
Exo permite la inferencia LLM distribuida agrupando la VRAM de múltiples Macs con Apple Silicon en tu red local, sirviendo en el puerto 52415. Te permite ejecutar modelos de 70B+ parámetros que no cabrían en una sola máquina, con descubrimiento automático de pares y una API compatible con OpenAI.
Exo permite la inferencia distribuida entre múltiples dispositivos Apple Silicon. Ejecuta modelos grandes (70B+) agrupando la VRAM de varios Macs.
Instalación
pip install exo-inference
exo
O instalar desde el código fuente:
git clone https://github.com/exo-explore/exo.git
cd exo && pip install -e .
exo
Detalles
| Propiedad | Valor |
|---|---|
| Puerto por defecto | 52415 |
| Tipo de API | Compatible con OpenAI |
| Reporte de VRAM | Sí (agregado entre nodos del clúster) |
| Formato de modelo | GGUF / MLX |
| Detección | Automática vía DEFAULT_URLS |
Benchmarking
asiai bench --engines exo -m llama3.3:70b
Exo se evalúa como cualquier otro motor. asiai lo detecta automáticamente en el puerto 52415.
Notas
- Exo descubre nodos pares automáticamente en la red local.
- La VRAM mostrada en asiai refleja la memoria total agregada de todos los nodos del clúster.
- Los modelos grandes que no caben en un solo Mac pueden ejecutarse sin problemas en el clúster.
- Inicia
exoen cada Mac del clúster antes de ejecutar benchmarks.
Ver también
Compara motores con asiai bench --engines exo --- aprende cómo