Exo

Exo 通过在本地网络中汇集多台 Apple Silicon Mac 的 VRAM 实现分布式 LLM 推理，服务端口 52415。它可以运行单机无法容纳的 70B+ 参数模型，支持自动节点发现和 OpenAI 兼容 API。

Exo 支持跨多个 Apple Silicon 设备的分布式推理。通过汇集多台 Mac 的 VRAM 运行大模型（70B+）。

配置

pip install exo-inference
exo

或从源码安装：

git clone https://github.com/exo-explore/exo.git
cd exo && pip install -e .
exo

asiai bench --engines exo -m llama3.3:70b

Exo 的基准测试方式与其他引擎相同。asiai 在端口 52415 自动检测它。

使用 asiai bench --engines exo 比较引擎 --- 了解方法