Aller au contenu

Premiers pas

Apple Silicon AI — CLI multi-moteur de benchmark et monitoring LLM.

asiai compare les moteurs d'inférence côte à côte sur votre Mac. Chargez le même modèle sur Ollama et LM Studio, lancez asiai bench, obtenez les chiffres. Pas de suppositions, pas de feeling — juste tok/s, TTFT, efficacité énergétique et stabilité par moteur.

Démarrage rapide

brew tap druide67/tap
brew install asiai

Ou avec pip :

pip install asiai

Puis détectez vos moteurs :

asiai detect

Et lancez un benchmark :

asiai bench -m qwen3.5 --runs 3 --power

Ce qu'on mesure

Métrique Description
tok/s Vitesse de génération (tokens/sec), hors traitement du prompt
TTFT Time to first token — latence de traitement du prompt
Power Consommation GPU en watts (sudo powermetrics)
tok/s/W Efficacité énergétique — tokens par seconde par watt
Stability Variance inter-runs : stable (<5%), variable (<10%), instable (>10%)
VRAM Empreinte mémoire GPU (Ollama uniquement)
Thermal État de throttling CPU et pourcentage de limitation

Moteurs supportés

Moteur Port API
Ollama 11434 Native
LM Studio 1234 Compatible OpenAI
mlx-lm 8080 Compatible OpenAI
llama.cpp 8080 Compatible OpenAI
vllm-mlx 8000 Compatible OpenAI

Prérequis

  • macOS sur Apple Silicon (M1 / M2 / M3 / M4)
  • Python 3.11+
  • Au moins un moteur d'inférence en local

Zéro dépendance

Le cœur utilise uniquement la bibliothèque standard Python — urllib, sqlite3, subprocess, argparse. Pas de requests, pas de psutil, pas de rich.

Extras optionnels :

  • asiai[tui] — Dashboard terminal Textual
  • asiai[dev] — pytest, ruff, pytest-cov