vllm-mlx
vLLM-MLXは、MLXを通じてvLLMサービングフレームワークをApple Siliconに導入し、連続バッチ処理とOpenAI互換API(ポート8000)を提供します。最適化されたモデルでは400+ tok/sを達成でき、Mac上での同時推論で最速の選択肢の一つです。
vllm-mlxは、MLXを通じてApple Siliconに連続バッチ処理を提供します。
セットアップ
pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit
詳細
| プロパティ | 値 |
|---|---|
| デフォルトポート | 8000 |
| APIタイプ | OpenAI互換 |
| VRAMレポート | いいえ |
| モデルフォーマット | MLX (safetensors) |
| 検出方法 | /versionエンドポイントまたはlsofプロセス検出 |
備考
- vllm-mlxは連続バッチ処理をサポートしており、同時リクエスト処理に適しています。
- Apple Siliconの最適化モデルで400+ tok/sを達成できます。
- 標準のvLLM OpenAI互換APIを使用します。
関連項目
asiai bench --engines vllm-mlx でエンジンを比較 --- 方法を学ぶ