Questions fréquentes
Général
Qu'est-ce qu'asiai ?
asiai est un outil CLI open-source qui benchmarke et surveille les moteurs d'inférence LLM sur les Mac Apple Silicon. Il supporte 7 moteurs (Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo) et mesure les tok/s, TTFT, la consommation électrique et l'utilisation VRAM avec zéro dépendance.
Est-ce qu'asiai fonctionne sur les Mac Intel ou Linux ?
Non. asiai nécessite Apple Silicon (M1, M2, M3 ou M4). Il utilise des API spécifiques à macOS (sysctl, vm_stat, ioreg, IOReport, launchd) qui ne sont disponibles que sur les Mac Apple Silicon.
Est-ce qu'asiai nécessite sudo ou un accès root ?
Non. Toutes les fonctionnalités, y compris l'observabilité GPU (ioreg) et le monitoring de puissance (IOReport), fonctionnent sans sudo. Le flag optionnel --power pour la validation croisée avec powermetrics est la seule fonctionnalité qui utilise sudo.
Moteurs et performances
Quel est le moteur LLM le plus rapide sur Apple Silicon ?
Dans nos benchmarks sur M4 Pro 64 Go avec Qwen3-Coder-30B (Q4_K_M), LM Studio (backend MLX) atteint 102 tok/s contre 70 tok/s pour Ollama — 46% plus rapide en génération de tokens. LM Studio est aussi 82% plus économe en énergie (8.23 vs 4.53 tok/s/W). Voir notre comparaison détaillée.
Ollama ou LM Studio est meilleur pour Mac ?
Cela dépend de votre cas d'usage :
- LM Studio (MLX) : Idéal pour le débit (génération de code, longues réponses). Plus rapide, plus efficient, moins de VRAM.
- Ollama (llama.cpp) : Idéal pour la latence (chatbots, usage interactif). TTFT plus rapide. Meilleur pour les grandes fenêtres de contexte (>32K tokens).
De combien de RAM ai-je besoin pour faire tourner des LLM en local ?
| Taille du modèle | Quantification | RAM nécessaire |
|---|---|---|
| 7B | Q4_K_M | 8 Go minimum |
| 13B | Q4_K_M | 16 Go minimum |
| 30B | Q4_K_M | 32-64 Go |
| 35B MoE (3B actifs) | Q4_K_M | 16 Go (seuls les paramètres actifs sont chargés) |
Benchmarking
Comment lancer mon premier benchmark ?
Trois commandes :
pip install asiai # Installer
asiai detect # Trouver les moteurs
asiai bench # Lancer le benchmark
Combien de temps dure un benchmark ?
Un benchmark rapide (asiai bench --quick) prend environ 2 minutes. Une comparaison complète inter-moteurs avec plusieurs prompts et 3 exécutions prend 10-15 minutes.
Quelle est la précision des mesures de puissance ?
Les mesures de puissance IOReport ont moins de 1,5% d'écart par rapport à sudo powermetrics, validé sur 20 échantillons sur LM Studio (MLX) et Ollama (llama.cpp).
Puis-je comparer mes résultats avec d'autres utilisateurs Mac ?
Oui. Exécutez asiai bench --share pour soumettre anonymement vos résultats au classement communautaire. Utilisez asiai compare pour voir comment votre Mac se positionne.
Intégration avec les agents IA
Les agents IA peuvent-ils utiliser asiai ?
Oui. asiai inclut un serveur MCP avec 11 outils et 3 ressources. Installez avec pip install "asiai[mcp]" et configurez comme asiai mcp dans votre client MCP (Claude Code, Cursor, Windsurf). Voir le Guide d'intégration agent.
Quels outils MCP sont disponibles ?
11 outils : check_inference_health, get_inference_snapshot, list_models, detect_engines, run_benchmark, get_recommendations, diagnose, get_metrics_history, get_benchmark_history, refresh_engines, compare_engines.
3 ressources : asiai://status, asiai://models, asiai://system.