mlx-lm

Name: asiai
Author: Jean-Marc Nahlovsky

mlx-lm 是 Apple 的 MLX 参考推理服务器，通过端口 8080 在 Metal GPU 上原生运行模型。对 Apple Silicon 上的 MoE（混合专家）模型特别高效，利用统一内存实现零拷贝模型加载。

mlx-lm 在 Apple MLX 上原生运行模型，提供高效的统一内存利用。

配置

brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit

使用 asiai bench --engines mlxlm 比较引擎 --- 了解方法