mlx-lm

mlx-lm è il server di inferenza MLX di riferimento di Apple, che esegue modelli nativamente sulla GPU Metal tramite la porta 8080. È particolarmente efficiente per modelli MoE (Mixture of Experts) su Apple Silicon, sfruttando la memoria unificata per il caricamento a zero-copy dei modelli.

mlx-lm esegue modelli nativamente su Apple MLX, fornendo un utilizzo efficiente della memoria unificata.

Installazione

brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit

Dettagli

Proprietà	Valore
Porta predefinita	8080
Tipo API	Compatibile con OpenAI
Report VRAM	No
Formato modello	MLX (safetensors)
Rilevamento	Endpoint `/version` o rilevamento processi `lsof`

Note

mlx-lm condivide la porta 8080 con llama.cpp. asiai usa il probing API e il rilevamento processi per distinguere tra loro.
I modelli usano il formato HuggingFace/community MLX (es. mlx-community/gemma-2-9b-it-4bit).
L'esecuzione nativa MLX fornisce tipicamente eccellenti prestazioni su Apple Silicon.

Vedi anche

Confronta motori con asiai bench --engines mlxlm --- scopri come