Quel LLM ? Quel moteur ?
Quelle combo gagne sur votre Mac ?

Benchmarker pour choisir. Dashboard pour monitorer. Historique pour repérer les problèmes.

Démarrer Voir sur GitHub

Python 3.11+ Apache 2.0 Apple Silicon

asiai bench

asiai web

Le problème des LLM locaux

Ça vous dit quelque chose ?

🧩

Fragmenté

Ollama, LM Studio, mlx-lm — chacun avec son CLI, ses formats et ses métriques. Aucun terrain commun.

🙈

À l'aveugle

Pas de monitoring VRAM temps réel, pas de suivi de puissance, pas d'alertes thermiques. Vous volez à l'aveugle.

📋

Manuel

Benchmarker = scripts curl, copier-coller des chiffres, comparer dans des tableurs.

Conçu pour les power users Apple Silicon

Tout ce qu'il faut pour benchmarker, monitorer et optimiser l'inférence locale.

⚔️

Benchmarks face-à-face

Même modèle sur Ollama vs LM Studio vs mlx-lm. Une commande, des vrais chiffres.

⚡

Efficacité énergétique

Mesurez la puissance GPU pendant l'inférence. Connaissez vos tok/s par watt — personne d'autre ne le fait.

🔧

5 moteurs, un seul CLI

Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Détection et configuration automatiques.

📦

Zéro dépendance

Stdlib Python uniquement. Pas de requests, pas de psutil, pas de rich. Installation en secondes.

🌡️

Intelligence thermique

Détecte le throttling pendant les benchmarks. Alerte quand votre Mac surchauffe en pleine inférence.

📉

Détection de régression

Détecte les baisses de performances après mise à jour OS ou moteur. Historique SQLite avec rétention 90 jours.

🌐

API REST

API JSON complète pour l'automatisation. /api/snapshot, /api/status, /api/metrics — intégration avec n'importe quel stack.

📈

Prometheus natif

Endpoint /metrics intégré. Connectez Grafana, Datadog ou tout outil compatible Prometheus. Zéro config.

Qu'allez-vous découvrir ?

Les vraies questions de r/LocalLLaMA, une commande suffit.

🏆

"Quel moteur est le plus rapide ?"

Comparaison face-à-face — la question n°1 sur r/LocalLLaMA.

🤖

"Monitorer un essaim multi-agents"

LLMs tournant 24/7 pour des agents IA — suivez VRAM, thermique et performances.

🔋

"Comparer l'efficacité énergétique"

tok/s par watt entre moteurs. Essentiel pour les homelabs Mac Mini 24/7.

🚨

"Détecter les régressions après mise à jour"

La mise à jour Ollama ou macOS a cassé vos performances ? Détection auto via SQLite.

📏

"Tester le support long contexte"

Benchmarks --context-size 64k. Votre modèle survit-il à 256k de contexte ?

🔥

"Mon Mac est-il en throttling thermique ?"

Détection de dérive thermique entre les runs. Unique à asiai.

📊

"Benchmarks reproductibles"

Méthodologie MLPerf/SPEC. Warmup, médiane, décodage greedy. Partagez en confiance.

🩺

"Diagnostic en une commande"

asiai doctor diagnostique système, moteurs et base de données avec suggestions de corrections.

💻

"Dashboard visuel"

Dashboard web dark/light avec graphiques en direct, progression SSE, contrôles de benchmark.

🔄

"Comparer les LLMs face-à-face"

Même moteur, différents modèles. Quelle quantification gagne ?

📡

"Monitoring Prometheus + Grafana"

Exposez /metrics, scrapez avec Prometheus, visualisez dans Grafana. Observabilité production-ready.

Opérationnel en 60 secondes

Trois commandes. C'est tout.

Installer

brew install asiai

Détecter

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 moteurs trouvés

Benchmarker

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

Découvertes réelles

Chiffres issus de vrais benchmarks sur Apple Silicon.

2.3x

MLX vs llama.cpp

MLX est 2,3x plus rapide pour les architectures MoE (Qwen3.5-35B-A3B) sur Apple Silicon.

Flat

VRAM : 64k → 256k

La VRAM reste constante de 64k à 256k de contexte avec DeltaNet — non documenté ailleurs.

30 vs 71

Moteur > Modèle

Même modèle, même Mac : 30 tok/s sur un moteur, 71 tok/s sur un autre. Le moteur compte plus.

Moteurs supportés

Détection automatique, zéro configuration.

Engine	Port par défaut	API	VRAM
Ollama	`11434`	Native	✔
LM Studio	`1234`	Compatible OpenAI	—
mlx-lm	`8080`	Compatible OpenAI	—
llama.cpp	`8080`	Compatible OpenAI	—
vllm-mlx	`8000`	Compatible OpenAI	—

Ce qu'on mesure

8 métriques, méthodologie constante, à chaque run.

🚀

tok/s

Vitesse de génération (tokens/sec)

⏱️

TTFT

Temps au premier token

⚡

Power (W)

Consommation GPU en watts

🔋

tok/s/W

Efficacité énergétique

📈

Stability

Variance inter-runs

💾

VRAM

Empreinte mémoire GPU

🌡️

Thermal

État de throttling

📏

Context

Scaling perf long contexte

Démarrer

Installation en secondes. Zéro dépendance.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub Documentation Méthodologie Apache 2.0

Quel LLM ? Quel moteur ?Quelle combo gagne sur votre Mac ?

Le problème des LLM locaux

Fragmenté

À l'aveugle

Manuel

Conçu pour les power users Apple Silicon

Benchmarks face-à-face

Efficacité énergétique

5 moteurs, un seul CLI

Zéro dépendance

Intelligence thermique

Détection de régression

API REST

Prometheus natif

Qu'allez-vous découvrir ?

"Quel moteur est le plus rapide ?"

"Monitorer un essaim multi-agents"

"Comparer l'efficacité énergétique"

"Détecter les régressions après mise à jour"

"Tester le support long contexte"

"Mon Mac est-il en throttling thermique ?"

"Benchmarks reproductibles"

"Diagnostic en une commande"

"Dashboard visuel"

"Comparer les LLMs face-à-face"

"Monitoring Prometheus + Grafana"

Opérationnel en 60 secondes

Installer

Détecter

Benchmarker

Découvertes réelles

MLX vs llama.cpp

VRAM : 64k → 256k

Moteur > Modèle

Moteurs supportés

Ce qu'on mesure

tok/s

TTFT

Power (W)

tok/s/W

Stability

VRAM

Thermal

Context

Démarrer

Home

Quel LLM ? Quel moteur ?
Quelle combo gagne sur votre Mac ?