Exo
Exoはローカルネットワーク上の複数のApple Silicon MacのVRAMをプールすることで分散LLM推論を可能にし、ポート52415でサービスを提供します。単一マシンに収まらない70B以上のパラメータモデルを、自動ピア検出とOpenAI互換APIで実行できます。
Exoは複数のApple Siliconデバイス間での分散推論を可能にします。複数のMacからVRAMをプールして大規模モデル(70B以上)を実行できます。
セットアップ
pip install exo-inference
exo
またはソースからインストール:
git clone https://github.com/exo-explore/exo.git
cd exo && pip install -e .
exo
詳細
| プロパティ | 値 |
|---|---|
| デフォルトポート | 52415 |
| APIタイプ | OpenAI互換 |
| VRAMレポーティング | あり(クラスターノード全体の集約) |
| モデルフォーマット | GGUF / MLX |
| 検出 | DEFAULT_URLsによる自動検出 |
ベンチマーク
asiai bench --engines exo -m llama3.3:70b
Exoは他のエンジンと同様にベンチマークされます。asiai はポート52415で自動検出します。
注意事項
- Exoはローカルネットワーク上のピアノードを自動的に検出します。
- asiai で表示されるVRAMは、クラスター全体のノードから集約された総メモリを反映しています。
- 単一Macに収まらない大規模モデルもクラスター全体でシームレスに実行できます。
- ベンチマーク実行前に、クラスター内の各Macで
exoを起動してください。
関連項目
asiai bench --engines exo でエンジンを比較 --- 詳しくはこちら