vllm-mlx

vLLM-MLX는 MLX를 통해 vLLM 서빙 프레임워크를 Apple Silicon으로 가져와 연속 배치 처리와 OpenAI 호환 API(포트 8000)를 제공합니다. 최적화된 모델에서 400+ tok/s를 달성할 수 있어 Mac에서 동시 추론을 위한 가장 빠른 옵션 중 하나입니다.

vllm-mlx는 MLX를 통해 Apple Silicon에 연속 배치 처리를 제공합니다.

설정

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

세부 정보

속성	값
기본 포트	8000
API 유형	OpenAI 호환
VRAM 보고	아니요
모델 형식	MLX (safetensors)
감지 방법	`/version` 엔드포인트 또는 `lsof` 프로세스 감지

참고

vllm-mlx는 연속 배치 처리를 지원하여 동시 요청 처리에 적합합니다.
Apple Silicon에서 최적화된 모델로 400+ tok/s를 달성할 수 있습니다.
표준 vLLM OpenAI 호환 API를 사용합니다.

참고 항목

asiai bench --engines vllm-mlx로 엔진 비교 --- 방법 알아보기