コンテンツにスキップ

Ollama

Ollamaは、Mac上で最も人気のあるLLM推論エンジンで、llama.cppバックエンドを使用し、GGUFモデルをポート11434で提供します。M4 Pro 64GBでのベンチマークでは、Qwen3-Coder-30Bで70 tok/sを達成しましたが、スループットはLM Studio(MLX)より46%遅くなっています。

Ollamaは、最も人気のあるローカルLLMランナーです。asiaiはそのネイティブAPIを使用します。

セットアップ

brew install ollama
ollama serve
ollama pull gemma2:9b

詳細

プロパティ
デフォルトポート 11434
APIタイプ ネイティブ(非OpenAI)
VRAMレポート はい
モデルフォーマット GGUF
ロード時間測定 はい(/api/generateコールドスタートによる)

備考

  • Ollamaはモデルごとのvram使用量を報告し、asiaiはベンチマークとモニター出力に表示します。
  • モデル名はname:tag形式を使用します(例:gemma2:9bqwen3.5:35b-a3b)。
  • asiaiは確定的なベンチマーク結果のためにtemperature: 0を送信します。

関連項目

Ollamaの比較を見る:Ollama vs LM Studio ベンチマーク