コンテンツにスキップ

Ollama

Ollamaは、Mac上で最も人気のあるLLM推論エンジンで、llama.cppバックエンドを使用し、GGUFモデルをポート11434で提供します。M4 Pro 64GBでのベンチマークでは、Qwen3-Coder-30Bで70 tok/sを達成しましたが、スループットはLM Studio（MLX）より46%遅くなっています。

Ollamaは、最も人気のあるローカルLLMランナーです。asiaiはそのネイティブAPIを使用します。

セットアップ

brew install ollama
ollama serve
ollama pull gemma2:9b

詳細

プロパティ	値
デフォルトポート	11434
APIタイプ	ネイティブ（非OpenAI）
VRAMレポート	はい
モデルフォーマット	GGUF
ロード時間測定	はい（`/api/generate`コールドスタートによる）

備考

Ollamaはモデルごとのvram使用量を報告し、asiaiはベンチマークとモニター出力に表示します。
モデル名はname:tag形式を使用します（例：gemma2:9b、qwen3.5:35b-a3b）。
asiaiは確定的なベンチマーク結果のためにtemperature: 0を送信します。

関連項目

Ollamaの比較を見る：Ollama vs LM Studio ベンチマーク