Ir para o conteúdo

Como Fazer Benchmark de LLMs no Mac

Rodando um LLM local no seu Mac? Veja como medir o desempenho real — não impressões, não "parece rápido", mas tok/s, TTFT, consumo de potência e uso de memória reais.

Por Que Fazer Benchmark?

O mesmo modelo roda em velocidades muito diferentes dependendo da engine de inferência. No Apple Silicon, engines baseadas em MLX (LM Studio, mlx-lm, oMLX) podem ser 2x mais rápidas que engines baseadas em llama.cpp (Ollama) para o mesmo modelo. Sem medir, você está deixando desempenho na mesa.

Início Rápido (2 minutos)

1. Instalar o asiai

pip install asiai

Ou via Homebrew:

brew tap druide67/tap
brew install asiai

2. Detectar suas engines

asiai detect

O asiai encontra automaticamente engines em execução (Ollama, LM Studio, llama.cpp, mlx-lm, oMLX, vLLM-MLX, Exo) no seu Mac.

3. Executar um benchmark

asiai bench

É isso. O asiai auto-detecta o melhor modelo entre suas engines e executa uma comparação cross-engine.

O Que É Medido

Métrica O Que Significa
tok/s Tokens gerados por segundo (apenas geração, exclui processamento de prompt)
TTFT Time to First Token — latência antes do início da geração
Potência Watts de GPU + CPU durante inferência (via IOReport, sem necessidade de sudo)
tok/s/W Eficiência energética — tokens por segundo por watt
VRAM Memória usada pelo modelo (API nativa ou estimada via ri_phys_footprint)
Estabilidade Variância entre execuções: estável (<5% CV), variável (<10%), instável (>10%)
Térmico Se o Mac sofreu throttling durante o benchmark

Exemplo de Saída

Mac16,11 — Apple M4 Pro  RAM: 64.0 GB  Pressure: normal

Benchmark: qwen3-coder-30b

  Engine        tok/s   Tokens Duration     TTFT       VRAM    Thermal
  lmstudio      102.2      537    7.00s    0.29s    24.2 GB    nominal
  ollama         69.8      512   17.33s    0.18s    32.0 GB    nominal

  Winner: lmstudio (+46% tok/s)

  Power Efficiency
    lmstudio     102.2 tok/s @ 12.4W = 8.23 tok/s/W
    ollama        69.8 tok/s @ 15.4W = 4.53 tok/s/W

Exemplo de saída de um benchmark real no M4 Pro 64GB. Seus números vão variar conforme hardware e modelo. Veja mais resultados →

Opções Avançadas

Comparar engines específicas

asiai bench --engines ollama,lmstudio,omlx

Múltiplos prompts e execuções

asiai bench --prompts code,reasoning,tool_call --runs 3

Benchmark de contexto grande

asiai bench --context-size 64K

Gerar um card compartilhável

asiai bench --card --share

Cria uma imagem de benchmark card e compartilha os resultados com o leaderboard comunitário.

Dicas para Apple Silicon

Memória importa

Em um Mac com 16GB, fique com modelos abaixo de 14GB (carregados). Modelos MoE (Qwen3.5-35B-A3B, 3B ativos) são ideais — entregam qualidade de classe 35B com uso de memória de classe 7B.

A escolha da engine importa mais do que você imagina

Engines MLX são significativamente mais rápidas que llama.cpp no Apple Silicon para a maioria dos modelos. Veja nossa comparação Ollama vs LM Studio com números reais.

Throttling térmico

MacBook Air (sem ventilador) sofre throttling após 5-10 minutos de inferência sustentada. Mac Mini/Studio/Pro lidam com cargas sustentadas sem throttling. O asiai detecta e reporta throttling térmico automaticamente.

Compare com a Comunidade

Veja como seu Mac se sai contra outras máquinas Apple Silicon:

asiai compare

Ou visite o leaderboard online.

FAQ

P: Qual é a engine de inferência LLM mais rápida no Apple Silicon? R: Em nossos benchmarks no M4 Pro 64GB, LM Studio (backend MLX) é a mais rápida para geração de tokens — 46% mais rápida que o Ollama (llama.cpp). No entanto, o Ollama tem TTFT (time to first token) menor. Veja nossa comparação detalhada.

P: Quanta RAM preciso para rodar um modelo de 30B no Mac? R: Um modelo 30B quantizado em Q4_K_M usa 24-32 GB de memória unificada dependendo da engine. Você precisa de pelo menos 32 GB de RAM, idealmente 64 GB para evitar pressão de memória. Modelos MoE como Qwen3.5-35B-A3B usam apenas ~7 GB de parâmetros ativos.

P: O asiai funciona em Macs Intel? R: Não. O asiai requer Apple Silicon (M1/M2/M3/M4). Ele usa APIs específicas do macOS para métricas de GPU, monitoramento de potência e detecção de hardware que estão disponíveis apenas no Apple Silicon.

P: Ollama ou LM Studio é mais rápido no M4? R: LM Studio é mais rápido para throughput (102 tok/s vs 70 tok/s no Qwen3-Coder-30B). Ollama é mais rápido para latência do primeiro token (0.18s vs 0.29s) e para janelas de contexto grandes (>32K tokens) onde o prefill do llama.cpp é até 3x mais rápido.

P: Quanto tempo leva um benchmark? R: Um benchmark rápido leva cerca de 2 minutos. Uma comparação cross-engine completa com múltiplos prompts e execuções leva 10-15 minutos. Use asiai bench --quick para um teste rápido de uma única execução.

P: Posso comparar meus resultados com outros usuários de Mac? R: Sim. Execute asiai bench --share para enviar resultados anonimamente ao leaderboard comunitário. Use asiai compare para ver como seu Mac se compara a outras máquinas Apple Silicon.

Leitura Adicional