Vai al contenuto

Come fare benchmark di LLM su Mac

Esegui un LLM locale sul tuo Mac? Ecco come misurare le prestazioni reali — non sensazioni, non "sembra veloce", ma tok/s, TTFT, consumo energetico e utilizzo di memoria effettivi.

Perché fare benchmark?

Lo stesso modello gira a velocità molto diverse a seconda del motore di inferenza. Su Apple Silicon, i motori basati su MLX (LM Studio, mlx-lm, oMLX) possono essere 2x più veloci rispetto ai motori basati su llama.cpp (Ollama) per lo stesso modello. Senza misurare, stai lasciando prestazioni sul tavolo.

Avvio rapido (2 minuti)

1. Installa asiai

pip install asiai

Oppure tramite Homebrew:

brew tap druide67/tap
brew install asiai

2. Rileva i tuoi motori

asiai detect

asiai trova automaticamente i motori in esecuzione (Ollama, LM Studio, llama.cpp, mlx-lm, oMLX, vLLM-MLX, Exo) sul tuo Mac.

3. Esegui un benchmark

asiai bench

È tutto. asiai rileva automaticamente il miglior modello tra i tuoi motori e esegue un confronto cross-engine.

Cosa viene misurato

Metrica Cosa significa
tok/s Token generati al secondo (solo generazione, esclusa l'elaborazione del prompt)
TTFT Time to First Token — latenza prima dell'inizio della generazione
Potenza Watt GPU + CPU durante l'inferenza (tramite IOReport, nessun sudo necessario)
tok/s/W Efficienza energetica — token al secondo per watt
VRAM Memoria usata dal modello (API nativa o stimata tramite ri_phys_footprint)
Stabilità Varianza tra esecuzioni: stabile (<5% CV), variabile (<10%), instabile (>10%)
Termica Se il tuo Mac ha subito throttling durante il benchmark

Output di esempio

Mac16,11 — Apple M4 Pro  RAM: 64.0 GB  Pressure: normal

Benchmark: qwen3-coder-30b

  Engine        tok/s   Tokens Duration     TTFT       VRAM    Thermal
  lmstudio      102.2      537    7.00s    0.29s    24.2 GB    nominal
  ollama         69.8      512   17.33s    0.18s    32.0 GB    nominal

  Winner: lmstudio (+46% tok/s)

  Power Efficiency
    lmstudio     102.2 tok/s @ 12.4W = 8.23 tok/s/W
    ollama        69.8 tok/s @ 15.4W = 4.53 tok/s/W

Output di esempio da un benchmark reale su M4 Pro 64GB. I tuoi numeri varieranno in base a hardware e modello. Vedi altri risultati →

Opzioni avanzate

Confronta motori specifici

asiai bench --engines ollama,lmstudio,omlx

Prompt multipli e più esecuzioni

asiai bench --prompts code,reasoning,tool_call --runs 3

Benchmark con contesto grande

asiai bench --context-size 64K

Genera una scheda condivisibile

asiai bench --card --share

Crea un'immagine di scheda benchmark e condivide i risultati con la classifica comunitaria.

Consigli per Apple Silicon

La memoria conta

Su un Mac da 16GB, resta con modelli sotto i 14GB (caricati). I modelli MoE (Qwen3.5-35B-A3B, 3B attivi) sono ideali — offrono qualità da 35B con utilizzo di memoria da 7B.

La scelta del motore conta più di quanto pensi

I motori MLX sono significativamente più veloci di llama.cpp su Apple Silicon per la maggior parte dei modelli. Vedi il nostro confronto Ollama vs LM Studio per numeri reali.

Throttling termico

MacBook Air (senza ventola) subisce throttling dopo 5-10 minuti di inferenza sostenuta. Mac Mini/Studio/Pro gestiscono carichi di lavoro sostenuti senza throttling. asiai rileva e riporta il throttling termico automaticamente.

Confronta con la community

Guarda come si posiziona il tuo Mac rispetto ad altre macchine Apple Silicon:

asiai compare

Oppure visita la classifica online.

FAQ

D: Qual è il motore di inferenza LLM più veloce su Apple Silicon? R: Nei nostri benchmark su M4 Pro 64GB, LM Studio (backend MLX) è il più veloce per la generazione di token — 46% più veloce di Ollama (llama.cpp). Tuttavia, Ollama ha un TTFT (time to first token) più basso. Vedi il nostro confronto dettagliato.

D: Quanta RAM serve per eseguire un modello 30B su Mac? R: Un modello 30B quantizzato Q4_K_M usa 24-32 GB di memoria unificata a seconda del motore. Servono almeno 32 GB di RAM, idealmente 64 GB per evitare pressione di memoria. I modelli MoE come Qwen3.5-35B-A3B usano solo ~7 GB di parametri attivi.

D: asiai funziona su Mac Intel? R: No. asiai richiede Apple Silicon (M1/M2/M3/M4). Usa API specifiche di macOS per metriche GPU, monitoraggio energetico e rilevamento hardware disponibili solo su Apple Silicon.

D: Ollama o LM Studio è più veloce su M4? R: LM Studio è più veloce per il throughput (102 tok/s vs 70 tok/s su Qwen3-Coder-30B). Ollama è più veloce per la latenza del primo token (0.18s vs 0.29s) e per finestre di contesto grandi (>32K token) dove il prefill di llama.cpp è fino a 3x più veloce.

D: Quanto dura un benchmark? R: Un benchmark rapido richiede circa 2 minuti. Un confronto completo cross-engine con prompt multipli e più esecuzioni richiede 10-15 minuti. Usa asiai bench --quick per un test rapido a singola esecuzione.

D: Posso confrontare i miei risultati con altri utenti Mac? R: Sì. Esegui asiai bench --share per inviare anonimamente i risultati alla classifica comunitaria. Usa asiai compare per vedere come si confronta il tuo Mac con altre macchine Apple Silicon.

Approfondimenti