コンテンツにスキップ

mlx-lm

mlx-lmはAppleのリファレンスMLX推論サーバーで、Metal GPU上でモデルをネイティブに実行し、ポート8080を使用します。特にApple SiliconでのMoE(Mixture of Experts)モデルに効率的で、ユニファイドメモリを活用したゼロコピーモデルロードを実現します。

mlx-lmは、Apple MLX上でモデルをネイティブに実行し、効率的なユニファイドメモリ活用を提供します。

セットアップ

brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit

詳細

プロパティ
デフォルトポート 8080
APIタイプ OpenAI互換
VRAMレポート いいえ
モデルフォーマット MLX (safetensors)
検出方法 /versionエンドポイントまたはlsofプロセス検出

備考

  • mlx-lmはllama.cppとポート8080を共有します。asiaiはAPIプローブとプロセス検出を使用して区別します。
  • モデルはHuggingFace/MLXコミュニティフォーマットを使用します(例:mlx-community/gemma-2-9b-it-4bit)。
  • ネイティブMLX実行により、Apple Siliconで優れたパフォーマンスを提供します。

関連項目

asiai bench --engines mlxlm でエンジンを比較 --- 方法を学ぶ