Exo

Exoはローカルネットワーク上の複数のApple Silicon MacのVRAMをプールすることで分散LLM推論を可能にし、ポート52415でサービスを提供します。単一マシンに収まらない70B以上のパラメータモデルを、自動ピア検出とOpenAI互換APIで実行できます。

Exoは複数のApple Siliconデバイス間での分散推論を可能にします。複数のMacからVRAMをプールして大規模モデル（70B以上）を実行できます。

セットアップ

pip install exo-inference
exo

またはソースからインストール：

git clone https://github.com/exo-explore/exo.git
cd exo && pip install -e .
exo

asiai bench --engines exo -m llama3.3:70b

Exoは他のエンジンと同様にベンチマークされます。asiai はポート52415で自動検出します。