Premiers pas
Apple Silicon AI — CLI multi-moteur de benchmark et monitoring LLM.
asiai compare les moteurs d'inférence côte à côte sur votre Mac. Chargez le même modèle sur Ollama et LM Studio, lancez asiai bench, obtenez les chiffres. Pas de suppositions, pas de feeling — juste tok/s, TTFT, efficacité énergétique et stabilité par moteur.
Démarrage rapide
brew tap druide67/tap
brew install asiai
Ou avec pip :
pip install asiai
Puis détectez vos moteurs :
asiai detect
Et lancez un benchmark :
asiai bench -m qwen3.5 --runs 3 --power
Ce qu'on mesure
| Métrique | Description |
|---|---|
| tok/s | Vitesse de génération (tokens/sec), hors traitement du prompt |
| TTFT | Time to first token — latence de traitement du prompt |
| Power | Consommation GPU en watts (sudo powermetrics) |
| tok/s/W | Efficacité énergétique — tokens par seconde par watt |
| Stability | Variance inter-runs : stable (<5%), variable (<10%), instable (>10%) |
| VRAM | Empreinte mémoire GPU (Ollama uniquement) |
| Thermal | État de throttling CPU et pourcentage de limitation |
Moteurs supportés
| Moteur | Port | API |
|---|---|---|
| Ollama | 11434 | Native |
| LM Studio | 1234 | Compatible OpenAI |
| mlx-lm | 8080 | Compatible OpenAI |
| llama.cpp | 8080 | Compatible OpenAI |
| vllm-mlx | 8000 | Compatible OpenAI |
Prérequis
- macOS sur Apple Silicon (M1 / M2 / M3 / M4)
- Python 3.11+
- Au moins un moteur d'inférence en local
Zéro dépendance
Le cœur utilise uniquement la bibliothèque standard Python — urllib, sqlite3, subprocess, argparse. Pas de requests, pas de psutil, pas de rich.
Extras optionnels :
asiai[tui]— Dashboard terminal Textualasiai[dev]— pytest, ruff, pytest-cov