Ollama
Ollamaは、Mac上で最も人気のあるLLM推論エンジンで、llama.cppバックエンドを使用し、GGUFモデルをポート11434で提供します。M4 Pro 64GBでのベンチマークでは、Qwen3-Coder-30Bで70 tok/sを達成しましたが、スループットはLM Studio(MLX)より46%遅くなっています。
Ollamaは、最も人気のあるローカルLLMランナーです。asiaiはそのネイティブAPIを使用します。
セットアップ
brew install ollama
ollama serve
ollama pull gemma2:9b
詳細
| プロパティ | 値 |
|---|---|
| デフォルトポート | 11434 |
| APIタイプ | ネイティブ(非OpenAI) |
| VRAMレポート | はい |
| モデルフォーマット | GGUF |
| ロード時間測定 | はい(/api/generateコールドスタートによる) |
備考
- Ollamaはモデルごとのvram使用量を報告し、asiaiはベンチマークとモニター出力に表示します。
- モデル名は
name:tag形式を使用します(例:gemma2:9b、qwen3.5:35b-a3b)。 - asiaiは確定的なベンチマーク結果のために
temperature: 0を送信します。
関連項目
Ollamaの比較を見る:Ollama vs LM Studio ベンチマーク