Vai al contenuto

Ollama vs LM Studio: Benchmark su Apple Silicon

Quale motore di inferenza è più veloce sul tuo Mac? Abbiamo confrontato Ollama (backend llama.cpp) e LM Studio (backend MLX) testa a testa con lo stesso modello e hardware usando asiai 1.4.0 a marzo 2026.

Configurazione del test

Hardware Mac Mini M4 Pro, 64 GB di memoria unificata
Modello Qwen3-Coder-30B (architettura MoE, Q4_K_M / MLX 4-bit)
Versione asiai 1.4.0
Metodologia 1 warmup + 1 esecuzione misurata per motore, temperature=0, modello scaricato tra motori (metodologia completa)

Risultati

Metrica LM Studio (MLX) Ollama (llama.cpp) Differenza
Throughput 102,2 tok/s 69,8 tok/s +46%
TTFT 291 ms 175 ms Ollama più veloce
Potenza GPU 12,4 W 15,4 W -20%
Efficienza 8,2 tok/s/W 4,5 tok/s/W +82%
Memoria processo 21,4 GB (RSS) 41,6 GB (RSS) -49%

Sui numeri di memoria

Ollama pre-alloca la cache KV per l'intera finestra di contesto (262K token), il che gonfia l'impronta di memoria. LM Studio alloca la cache KV su richiesta. L'RSS del processo riflette la memoria totale usata dal processo del motore, non solo i pesi del modello.

Risultati chiave

LM Studio vince nel throughput (+46%)

L'ottimizzazione nativa Metal di MLX estrae più banda dalla memoria unificata di Apple Silicon. Sulle architetture MoE, il vantaggio è significativo. Sulla variante più grande Qwen3.5-35B-A3B, abbiamo misurato un gap ancora più ampio: 71,2 vs 30,3 tok/s (2,3x).

Ollama vince nel TTFT

Il backend llama.cpp di Ollama elabora il prompt iniziale più velocemente (175ms vs 291ms). Per l'uso interattivo con prompt brevi, questo rende Ollama più reattivo. Per compiti di generazione più lunghi, il vantaggio di throughput di LM Studio domina il tempo totale.

LM Studio è più efficiente energeticamente (+82%)

Con 8,2 tok/s per watt contro 4,5, LM Studio genera quasi il doppio dei token per joule. Questo conta per i portatili a batteria e per carichi di lavoro sostenuti su server sempre accesi.

Utilizzo memoria: il contesto conta

Il grande gap nella memoria del processo (21,4 vs 41,6 GB) è in parte dovuto alla pre-allocazione della cache KV di Ollama per la finestra di contesto massima. Per un confronto equo, considera il contesto effettivamente usato durante il tuo carico di lavoro, non l'RSS di picco.

Quando usare ciascuno

Caso d'uso Consigliato Perché
Massimo throughput LM Studio (MLX) +46% generazione più veloce
Chat interattiva (bassa latenza) Ollama TTFT inferiore (175 vs 291 ms)
Autonomia batteria / efficienza LM Studio 82% in più di tok/s per watt
Docker / compatibilità API Ollama Ecosistema più ampio, API compatibile OpenAI
Memoria limitata (Mac 16GB) LM Studio RSS inferiore, cache KV su richiesta
Servire più modelli Ollama Gestione modelli integrata, keep_alive

Altri modelli

Il gap di throughput varia per architettura del modello:

Modello LM Studio (MLX) Ollama (llama.cpp) Gap
Qwen3-Coder-30B (MoE) 102,2 tok/s 69,8 tok/s +46%
Qwen3.5-35B-A3B (MoE) 71,2 tok/s 30,3 tok/s +135%

I modelli MoE mostrano le differenze maggiori perché MLX gestisce il routing sparse degli esperti in modo più efficiente su Metal.

Esegui il tuo benchmark

pip install asiai
asiai bench --engines ollama,lmstudio --prompts code --runs 3 --card

asiai confronta i motori fianco a fianco con lo stesso modello, gli stessi prompt e lo stesso hardware. I modelli vengono automaticamente scaricati tra motori per prevenire contesa di memoria.

Vedi la metodologia completa · Vedi la classifica comunitaria · Come fare benchmark di LLM su Mac