Ir para o conteúdo

Ollama vs LM Studio: Benchmark Apple Silicon

Qual motor de inferência é mais rápido no seu Mac? Fizemos benchmark do Ollama (backend llama.cpp) e LM Studio (backend MLX) head-to-head no mesmo modelo e hardware usando asiai 1.4.0 em março de 2026.

Configuração do Teste

Hardware Mac Mini M4 Pro, 64 GB de memória unificada
Modelo Qwen3-Coder-30B (arquitetura MoE, Q4_K_M / MLX 4-bit)
Versão asiai 1.4.0
Metodologia 1 aquecimento + 1 execução medida por motor, temperature=0, modelo descarregado entre motores (metodologia completa)

Resultados

Métrica LM Studio (MLX) Ollama (llama.cpp) Diferença
Throughput 102,2 tok/s 69,8 tok/s +46%
TTFT 291 ms 175 ms Ollama mais rápido
Potência GPU 12,4 W 15,4 W -20%
Eficiência 8,2 tok/s/W 4,5 tok/s/W +82%
Memória do Processo 21,4 GB (RSS) 41,6 GB (RSS) -49%

Sobre os números de memória

O Ollama pré-aloca cache KV para toda a janela de contexto (262K tokens), o que infla seu footprint de memória. O LM Studio aloca cache KV sob demanda. O RSS do processo reflete a memória total usada pelo processo do motor, não apenas os pesos do modelo.

Principais Descobertas

LM Studio vence em throughput (+46%)

A otimização nativa Metal do MLX extrai mais largura de banda da memória unificada do Apple Silicon. Em arquiteturas MoE, a vantagem é significativa. Na variante maior Qwen3.5-35B-A3B, medimos uma diferença ainda maior: 71,2 vs 30,3 tok/s (2,3x).

Ollama vence em TTFT

O backend llama.cpp do Ollama processa o prompt inicial mais rápido (175ms vs 291ms). Para uso interativo com prompts curtos, isso faz o Ollama parecer mais ágil. Para tarefas de geração mais longas, a vantagem de throughput do LM Studio domina o tempo total.

LM Studio é mais eficiente energeticamente (+82%)

Com 8,2 tok/s por watt vs 4,5, o LM Studio gera quase o dobro de tokens por joule. Isso importa para laptops na bateria e para cargas de trabalho sustentadas em servidores sempre ligados.

Uso de memória: contexto importa

A grande diferença na memória do processo (21,4 vs 41,6 GB) se deve em parte ao Ollama pré-alocar cache KV para sua janela de contexto máxima. Para uma comparação justa, considere o contexto real usado durante sua carga de trabalho, não o RSS de pico.

Quando Usar Cada Um

Caso de Uso Recomendado Por quê
Throughput máximo LM Studio (MLX) +46% de geração mais rápida
Chat interativo (baixa latência) Ollama TTFT menor (175 vs 291 ms)
Bateria / eficiência LM Studio 82% mais tok/s por watt
Docker / compatibilidade de API Ollama Ecossistema mais amplo, API compatível com OpenAI
Memória limitada (Mac 16GB) LM Studio RSS menor, cache KV sob demanda
Servir múltiplos modelos Ollama Gerenciamento de modelos integrado, keep_alive

Outros Modelos

A diferença de throughput varia por arquitetura de modelo:

Modelo LM Studio (MLX) Ollama (llama.cpp) Diferença
Qwen3-Coder-30B (MoE) 102,2 tok/s 69,8 tok/s +46%
Qwen3.5-35B-A3B (MoE) 71,2 tok/s 30,3 tok/s +135%

Modelos MoE mostram as maiores diferenças porque o MLX lida com roteamento esparso de experts mais eficientemente no Metal.

Execute Seu Próprio Benchmark

pip install asiai
asiai bench --engines ollama,lmstudio --prompts code --runs 3 --card

O asiai compara motores lado a lado com o mesmo modelo, mesmos prompts e mesmo hardware. Os modelos são automaticamente descarregados entre motores para evitar contenção de memória.

Veja a metodologia completa · Veja o leaderboard da comunidade · Como fazer benchmark de LLMs no Mac