Aller au contenu

Comment benchmarker les LLM sur Mac

Vous faites tourner un LLM local sur votre Mac ? Voici comment mesurer les performances réelles — pas des impressions, pas du « ça a l'air rapide », mais de vrais tok/s, TTFT, consommation électrique et utilisation mémoire.

Pourquoi benchmarker ?

Le même modèle tourne à des vitesses très différentes selon le moteur d'inférence. Sur Apple Silicon, les moteurs basés MLX (LM Studio, mlx-lm, oMLX) peuvent être 2x plus rapides que les moteurs basés llama.cpp (Ollama) pour le même modèle. Sans mesure, vous laissez de la performance sur la table.

Démarrage rapide (2 minutes)

1. Installer asiai

pip install asiai

Ou via Homebrew :

brew tap druide67/tap
brew install asiai

2. Détecter vos moteurs

asiai detect

asiai trouve automatiquement les moteurs en cours d'exécution (Ollama, LM Studio, llama.cpp, mlx-lm, oMLX, vLLM-MLX, Exo) sur votre Mac.

3. Lancer un benchmark

asiai bench

C'est tout. asiai détecte automatiquement le meilleur modèle parmi vos moteurs et lance une comparaison inter-moteurs.

Ce qui est mesuré

Métrique Signification
tok/s Tokens générés par seconde (génération uniquement, hors traitement du prompt)
TTFT Time to First Token — latence avant le début de la génération
Puissance Watts GPU + CPU pendant l'inférence (via IOReport, sans sudo)
tok/s/W Efficacité énergétique — tokens par seconde par watt
VRAM Mémoire utilisée par le modèle (API native ou estimée via ri_phys_footprint)
Stabilité Variance inter-exécutions : stable (<5% CV), variable (<10%), instable (>10%)
Thermique Si votre Mac a été throttlé pendant le benchmark

Exemple de sortie

Mac16,11 — Apple M4 Pro  RAM: 64.0 GB  Pressure: normal

Benchmark: qwen3-coder-30b

  Engine        tok/s   Tokens Duration     TTFT       VRAM    Thermal
  lmstudio      102.2      537    7.00s    0.29s    24.2 GB    nominal
  ollama         69.8      512   17.33s    0.18s    32.0 GB    nominal

  Winner: lmstudio (+46% tok/s)

  Power Efficiency
    lmstudio     102.2 tok/s @ 12.4W = 8.23 tok/s/W
    ollama        69.8 tok/s @ 15.4W = 4.53 tok/s/W

Exemple de sortie d'un vrai benchmark sur M4 Pro 64 Go. Vos chiffres varieront selon le matériel et le modèle. Voir plus de résultats →

Options avancées

Comparer des moteurs spécifiques

asiai bench --engines ollama,lmstudio,omlx

Plusieurs prompts et exécutions

asiai bench --prompts code,reasoning,tool_call --runs 3

Benchmark à grand contexte

asiai bench --context-size 64K

Générer une carte partageable

asiai bench --card --share

Crée une image de carte de benchmark et partage les résultats avec le classement communautaire.

Conseils Apple Silicon

La mémoire compte

Sur un Mac 16 Go, limitez-vous aux modèles de moins de 14 Go (chargés). Les modèles MoE (Qwen3.5-35B-A3B, 3B actifs) sont idéaux — ils offrent une qualité de classe 35B pour une utilisation mémoire de classe 7B.

Le choix du moteur compte plus qu'on ne le pense

Les moteurs MLX sont significativement plus rapides que llama.cpp sur Apple Silicon pour la plupart des modèles. Voir notre comparaison Ollama vs LM Studio pour des chiffres réels.

Throttling thermique

Le MacBook Air (sans ventilateur) throttle après 5-10 minutes d'inférence soutenue. Le Mac Mini/Studio/Pro gère les charges soutenues sans throttling. asiai détecte et signale le throttling thermique automatiquement.

Comparez-vous à la communauté

Voyez comment votre Mac se positionne par rapport aux autres machines Apple Silicon :

asiai compare

Ou visitez le classement en ligne.

FAQ

Q : Quel est le moteur d'inférence LLM le plus rapide sur Apple Silicon ? R : Dans nos benchmarks sur M4 Pro 64 Go, LM Studio (backend MLX) est le plus rapide en génération de tokens — 46% plus rapide qu'Ollama (llama.cpp). Cependant, Ollama a un TTFT (time to first token) plus bas. Voir notre comparaison détaillée.

Q : De combien de RAM ai-je besoin pour faire tourner un modèle 30B sur Mac ? R : Un modèle 30B quantifié Q4_K_M utilise 24-32 Go de mémoire unifiée selon le moteur. Il faut au moins 32 Go de RAM, idéalement 64 Go pour éviter la pression mémoire. Les modèles MoE comme Qwen3.5-35B-A3B n'utilisent que ~7 Go de paramètres actifs.

Q : Est-ce que asiai fonctionne sur les Mac Intel ? R : Non. asiai nécessite Apple Silicon (M1/M2/M3/M4). Il utilise des API spécifiques à macOS pour les métriques GPU, le monitoring de puissance et la détection matérielle qui ne sont disponibles que sur Apple Silicon.

Q : Ollama ou LM Studio est plus rapide sur M4 ? R : LM Studio est plus rapide en débit (102 tok/s vs 70 tok/s sur Qwen3-Coder-30B). Ollama est plus rapide pour la latence du premier token (0.18s vs 0.29s) et pour les grandes fenêtres de contexte (>32K tokens) où le prefill llama.cpp est jusqu'à 3x plus rapide.

Q : Combien de temps dure un benchmark ? R : Un benchmark rapide prend environ 2 minutes. Une comparaison complète inter-moteurs avec plusieurs prompts et exécutions prend 10-15 minutes. Utilisez asiai bench --quick pour un test rapide en une seule exécution.

Q : Puis-je comparer mes résultats avec d'autres utilisateurs Mac ? R : Oui. Exécutez asiai bench --share pour soumettre anonymement vos résultats au classement communautaire. Utilisez asiai compare pour voir comment votre Mac se compare aux autres machines Apple Silicon.

Pour aller plus loin