asiai logo

Quel LLM ? Quel moteur ?
Quelle combo gagne sur votre Mac ?

Benchmarker pour choisir. Dashboard pour monitorer. Historique pour repérer les problèmes.

Python 3.11+ Apache 2.0 Apple Silicon
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

Le problème des LLM locaux

Ça vous dit quelque chose ?

🧩

Fragmenté

Ollama, LM Studio, mlx-lm — chacun avec son CLI, ses formats et ses métriques. Aucun terrain commun.

🙈

À l'aveugle

Pas de monitoring VRAM temps réel, pas de suivi de puissance, pas d'alertes thermiques. Vous volez à l'aveugle.

📋

Manuel

Benchmarker = scripts curl, copier-coller des chiffres, comparer dans des tableurs.

Conçu pour les power users Apple Silicon

Tout ce qu'il faut pour benchmarker, monitorer et optimiser l'inférence locale.

⚔️

Benchmarks face-à-face

Même modèle sur Ollama vs LM Studio vs mlx-lm. Une commande, des vrais chiffres.

Efficacité énergétique

Mesurez la puissance GPU pendant l'inférence. Connaissez vos tok/s par watt — personne d'autre ne le fait.

🔧

5 moteurs, un seul CLI

Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Détection et configuration automatiques.

📦

Zéro dépendance

Stdlib Python uniquement. Pas de requests, pas de psutil, pas de rich. Installation en secondes.

🌡️

Intelligence thermique

Détecte le throttling pendant les benchmarks. Alerte quand votre Mac surchauffe en pleine inférence.

📉

Détection de régression

Détecte les baisses de performances après mise à jour OS ou moteur. Historique SQLite avec rétention 90 jours.

🌐

API REST

API JSON complète pour l'automatisation. /api/snapshot, /api/status, /api/metrics — intégration avec n'importe quel stack.

📈

Prometheus natif

Endpoint /metrics intégré. Connectez Grafana, Datadog ou tout outil compatible Prometheus. Zéro config.

Qu'allez-vous découvrir ?

Les vraies questions de r/LocalLLaMA, une commande suffit.

🏆

"Quel moteur est le plus rapide ?"

Comparaison face-à-face — la question n°1 sur r/LocalLLaMA.

🤖

"Monitorer un essaim multi-agents"

LLMs tournant 24/7 pour des agents IA — suivez VRAM, thermique et performances.

🔋

"Comparer l'efficacité énergétique"

tok/s par watt entre moteurs. Essentiel pour les homelabs Mac Mini 24/7.

🚨

"Détecter les régressions après mise à jour"

La mise à jour Ollama ou macOS a cassé vos performances ? Détection auto via SQLite.

📏

"Tester le support long contexte"

Benchmarks --context-size 64k. Votre modèle survit-il à 256k de contexte ?

🔥

"Mon Mac est-il en throttling thermique ?"

Détection de dérive thermique entre les runs. Unique à asiai.

📊

"Benchmarks reproductibles"

Méthodologie MLPerf/SPEC. Warmup, médiane, décodage greedy. Partagez en confiance.

🩺

"Diagnostic en une commande"

asiai doctor diagnostique système, moteurs et base de données avec suggestions de corrections.

💻

"Dashboard visuel"

Dashboard web dark/light avec graphiques en direct, progression SSE, contrôles de benchmark.

🔄

"Comparer les LLMs face-à-face"

Même moteur, différents modèles. Quelle quantification gagne ?

📡

"Monitoring Prometheus + Grafana"

Exposez /metrics, scrapez avec Prometheus, visualisez dans Grafana. Observabilité production-ready.

Opérationnel en 60 secondes

Trois commandes. C'est tout.

1

Installer

brew install asiai
2

Détecter

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3 moteurs trouvés
3

Benchmarker

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

Découvertes réelles

Chiffres issus de vrais benchmarks sur Apple Silicon.

2.3x

MLX vs llama.cpp

MLX est 2,3x plus rapide pour les architectures MoE (Qwen3.5-35B-A3B) sur Apple Silicon.

Flat

VRAM : 64k → 256k

La VRAM reste constante de 64k à 256k de contexte avec DeltaNet — non documenté ailleurs.

30 vs 71

Moteur > Modèle

Même modèle, même Mac : 30 tok/s sur un moteur, 71 tok/s sur un autre. Le moteur compte plus.

Moteurs supportés

Détection automatique, zéro configuration.

Engine Port par défaut API VRAM
Ollama 11434 Native
LM Studio 1234 Compatible OpenAI
mlx-lm 8080 Compatible OpenAI
llama.cpp 8080 Compatible OpenAI
vllm-mlx 8000 Compatible OpenAI

Ce qu'on mesure

8 métriques, méthodologie constante, à chaque run.

🚀

tok/s

Vitesse de génération (tokens/sec)

⏱️

TTFT

Temps au premier token

Power (W)

Consommation GPU en watts

🔋

tok/s/W

Efficacité énergétique

📈

Stability

Variance inter-runs

💾

VRAM

Empreinte mémoire GPU

🌡️

Thermal

État de throttling

📏

Context

Scaling perf long contexte

Démarrer

Installation en secondes. Zéro dépendance.

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

Home