Ir para o conteúdo

mlx-lm

mlx-lm é o servidor de inferência MLX de referência da Apple, executando modelos nativamente na GPU Metal via porta 8080. É particularmente eficiente para modelos MoE (Mixture of Experts) no Apple Silicon, aproveitando a memória unificada para carregamento zero-copy de modelos.

mlx-lm executa modelos nativamente no Apple MLX, proporcionando utilização eficiente de memória unificada.

Configuração

brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit

Detalhes

Propriedade Valor
Porta padrão 8080
Tipo de API Compatível com OpenAI
Reporte de VRAM Não
Formato de modelo MLX (safetensors)
Detecção Endpoint /version ou detecção de processo via lsof

Notas

  • mlx-lm compartilha a porta 8080 com llama.cpp. O asiai usa probing de API e detecção de processo para distinguir entre eles.
  • Os modelos usam o formato da comunidade HuggingFace/MLX (ex: mlx-community/gemma-2-9b-it-4bit).
  • A execução nativa MLX tipicamente proporciona excelente performance no Apple Silicon.

Veja também

Compare motores com asiai bench --engines mlxlm --- saiba como