Benchmarker pour choisir. Dashboard pour monitorer. Historique pour repérer les problèmes.
asiai bench
asiai web
Ça vous dit quelque chose ?
Ollama, LM Studio, mlx-lm — chacun avec son CLI, ses formats et ses métriques. Aucun terrain commun.
Pas de monitoring VRAM temps réel, pas de suivi de puissance, pas d'alertes thermiques. Vous volez à l'aveugle.
Benchmarker = scripts curl, copier-coller des chiffres, comparer dans des tableurs.
Tout ce qu'il faut pour benchmarker, monitorer et optimiser l'inférence locale.
Même modèle sur Ollama vs LM Studio vs mlx-lm. Une commande, des vrais chiffres.
Mesurez la puissance GPU pendant l'inférence. Connaissez vos tok/s par watt — personne d'autre ne le fait.
Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Détection et configuration automatiques.
Stdlib Python uniquement. Pas de requests, pas de psutil, pas de rich. Installation en secondes.
Détecte le throttling pendant les benchmarks. Alerte quand votre Mac surchauffe en pleine inférence.
Détecte les baisses de performances après mise à jour OS ou moteur. Historique SQLite avec rétention 90 jours.
API JSON complète pour l'automatisation. /api/snapshot, /api/status, /api/metrics — intégration avec n'importe quel stack.
Endpoint /metrics intégré. Connectez Grafana, Datadog ou tout outil compatible Prometheus. Zéro config.
Les vraies questions de r/LocalLLaMA, une commande suffit.
Comparaison face-à-face — la question n°1 sur r/LocalLLaMA.
LLMs tournant 24/7 pour des agents IA — suivez VRAM, thermique et performances.
tok/s par watt entre moteurs. Essentiel pour les homelabs Mac Mini 24/7.
La mise à jour Ollama ou macOS a cassé vos performances ? Détection auto via SQLite.
Benchmarks --context-size 64k. Votre modèle survit-il à 256k de contexte ?
Détection de dérive thermique entre les runs. Unique à asiai.
Méthodologie MLPerf/SPEC. Warmup, médiane, décodage greedy. Partagez en confiance.
asiai doctor diagnostique système, moteurs et base de données avec suggestions de corrections.
Dashboard web dark/light avec graphiques en direct, progression SSE, contrôles de benchmark.
Même moteur, différents modèles. Quelle quantification gagne ?
Exposez /metrics, scrapez avec Prometheus, visualisez dans Grafana. Observabilité production-ready.
Trois commandes. C'est tout.
brew install asiai
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 moteurs trouvés
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Chiffres issus de vrais benchmarks sur Apple Silicon.
MLX est 2,3x plus rapide pour les architectures MoE (Qwen3.5-35B-A3B) sur Apple Silicon.
La VRAM reste constante de 64k à 256k de contexte avec DeltaNet — non documenté ailleurs.
Même modèle, même Mac : 30 tok/s sur un moteur, 71 tok/s sur un autre. Le moteur compte plus.
8 métriques, méthodologie constante, à chaque run.
Vitesse de génération (tokens/sec)
Temps au premier token
Consommation GPU en watts
Efficacité énergétique
Variance inter-runs
Empreinte mémoire GPU
État de throttling
Scaling perf long contexte
Installation en secondes. Zéro dépendance.
brew tap druide67/tap
brew install asiai
pip install asiai