vllm-mlx

vLLM-MLXは、MLXを通じてvLLMサービングフレームワークをApple Siliconに導入し、連続バッチ処理とOpenAI互換API（ポート8000）を提供します。最適化されたモデルでは400+ tok/sを達成でき、Mac上での同時推論で最速の選択肢の一つです。

vllm-mlxは、MLXを通じてApple Siliconに連続バッチ処理を提供します。

セットアップ

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

プロパティ	値
デフォルトポート	8000
APIタイプ	OpenAI互換
VRAMレポート	いいえ
モデルフォーマット	MLX (safetensors)
検出方法	`/version`エンドポイントまたは`lsof`プロセス検出