mlx-lm
mlx-lm은 Apple의 레퍼런스 MLX 추론 서버로, Metal GPU에서 모델을 네이티브로 실행하며 포트 8080을 사용합니다. 특히 Apple Silicon에서 MoE(Mixture of Experts) 모델에 효율적이며, 유니파이드 메모리를 활용한 제로카피 모델 로딩을 실현합니다.
mlx-lm은 Apple MLX에서 모델을 네이티브로 실행하여 효율적인 유니파이드 메모리 활용을 제공합니다.
설정
brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit
세부 정보
| 속성 | 값 |
|---|---|
| 기본 포트 | 8080 |
| API 유형 | OpenAI 호환 |
| VRAM 보고 | 아니요 |
| 모델 형식 | MLX (safetensors) |
| 감지 방법 | /version 엔드포인트 또는 lsof 프로세스 감지 |
참고
- mlx-lm은 llama.cpp와 포트 8080을 공유합니다. asiai는 API 프로빙과 프로세스 감지를 사용하여 구별합니다.
- 모델은 HuggingFace/MLX 커뮤니티 형식을 사용합니다(예:
mlx-community/gemma-2-9b-it-4bit). - 네이티브 MLX 실행으로 Apple Silicon에서 뛰어난 성능을 제공합니다.
참고 항목
asiai bench --engines mlxlm으로 엔진 비교 --- 방법 알아보기