Aller au contenu

mlx-lm

mlx-lm est le serveur d'inférence MLX de référence d'Apple, exécutant les modèles nativement sur le GPU Metal via le port 8080. Il est particulièrement efficace pour les modèles MoE (Mixture of Experts) sur Apple Silicon, tirant parti de la mémoire unifiée pour un chargement de modèle en zéro-copie.

mlx-lm exécute les modèles nativement sur Apple MLX, offrant une utilisation efficace de la mémoire unifiée.

Installation

brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit

Détails

Propriété Valeur
Port par défaut 8080
Type d'API Compatible OpenAI
Rapport VRAM Non
Format de modèle MLX (safetensors)
Détection Endpoint /version ou détection de processus lsof

Notes

  • mlx-lm partage le port 8080 avec llama.cpp. asiai utilise le sondage API et la détection de processus pour les distinguer.
  • Les modèles utilisent le format HuggingFace/MLX community (ex. mlx-community/gemma-2-9b-it-4bit).
  • L'exécution native MLX offre généralement d'excellentes performances sur Apple Silicon.

Voir aussi

Comparez les moteurs avec asiai bench --engines mlxlm --- en savoir plus