콘텐츠로 이동

vllm-mlx

vLLM-MLX는 MLX를 통해 vLLM 서빙 프레임워크를 Apple Silicon으로 가져와 연속 배치 처리와 OpenAI 호환 API(포트 8000)를 제공합니다. 최적화된 모델에서 400+ tok/s를 달성할 수 있어 Mac에서 동시 추론을 위한 가장 빠른 옵션 중 하나입니다.

vllm-mlx는 MLX를 통해 Apple Silicon에 연속 배치 처리를 제공합니다.

설정

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

세부 정보

속성
기본 포트 8000
API 유형 OpenAI 호환
VRAM 보고 아니요
모델 형식 MLX (safetensors)
감지 방법 /version 엔드포인트 또는 lsof 프로세스 감지

참고

  • vllm-mlx는 연속 배치 처리를 지원하여 동시 요청 처리에 적합합니다.
  • Apple Silicon에서 최적화된 모델로 400+ tok/s를 달성할 수 있습니다.
  • 표준 vLLM OpenAI 호환 API를 사용합니다.

참고 항목

asiai bench --engines vllm-mlx로 엔진 비교 --- 방법 알아보기