コンテンツにスキップ

oMLX

oMLXはネイティブmacOS推論サーバーで、ページドSSD KVキャッシュを使用してメモリだけでは対応できない大きなコンテキストウィンドウを処理し、ポート8000で連続バッチ処理による同時リクエスト処理を実現します。Apple Silicon上でOpenAIおよびAnthropic互換APIの両方をサポートしています。

oMLXは、ページドSSD KVキャッシュと連続バッチ処理を備えたネイティブmacOS LLM推論サーバーです。メニューバーから管理でき、Apple Silicon向けにMLXで構築されています。

セットアップ

brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx

またはGitHubリリースから.dmgをダウンロードしてください。

詳細

プロパティ
デフォルトポート 8000
APIタイプ OpenAI互換 + Anthropic互換
VRAMレポート いいえ
モデルフォーマット MLX (safetensors)
検出方法 /admin/info JSONエンドポイントまたは/admin HTMLページ
要件 macOS 15+、Apple Silicon (M1+)、最低16 GB RAM

備考

  • oMLXはvllm-mlxとポート8000を共有します。asiaiは/admin/infoプローブを使用して区別します。
  • SSD KVキャッシュにより、メモリ圧力を抑えつつ大きなコンテキストウィンドウに対応できます。
  • 連続バッチ処理により、同時リクエスト時のスループットが向上します。
  • テキストLLM、視覚言語モデル、OCRモデル、埋め込み、リランカーをサポートしています。
  • /adminの管理ダッシュボードでリアルタイムのサーバーメトリクスを確認できます。
  • .dmgインストール時はアプリ内自動更新に対応しています。

関連項目

asiai bench --engines omlx でエンジンを比較 --- 方法を学ぶ