Aller au contenu

Questions fréquentes

Général

Qu'est-ce qu'asiai ?

asiai est un outil CLI open-source qui benchmarke et surveille les moteurs d'inférence LLM sur les Mac Apple Silicon. Il supporte 7 moteurs (Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo) et mesure les tok/s, TTFT, la consommation électrique et l'utilisation VRAM avec zéro dépendance.

Est-ce qu'asiai fonctionne sur les Mac Intel ou Linux ?

Non. asiai nécessite Apple Silicon (M1, M2, M3 ou M4). Il utilise des API spécifiques à macOS (sysctl, vm_stat, ioreg, IOReport, launchd) qui ne sont disponibles que sur les Mac Apple Silicon.

Est-ce qu'asiai nécessite sudo ou un accès root ?

Non. Toutes les fonctionnalités, y compris l'observabilité GPU (ioreg) et le monitoring de puissance (IOReport), fonctionnent sans sudo. Le flag optionnel --power pour la validation croisée avec powermetrics est la seule fonctionnalité qui utilise sudo.

Moteurs et performances

Quel est le moteur LLM le plus rapide sur Apple Silicon ?

Dans nos benchmarks sur M4 Pro 64 Go avec Qwen3-Coder-30B (Q4_K_M), LM Studio (backend MLX) atteint 102 tok/s contre 70 tok/s pour Ollama — 46% plus rapide en génération de tokens. LM Studio est aussi 82% plus économe en énergie (8.23 vs 4.53 tok/s/W). Voir notre comparaison détaillée.

Ollama ou LM Studio est meilleur pour Mac ?

Cela dépend de votre cas d'usage :

  • LM Studio (MLX) : Idéal pour le débit (génération de code, longues réponses). Plus rapide, plus efficient, moins de VRAM.
  • Ollama (llama.cpp) : Idéal pour la latence (chatbots, usage interactif). TTFT plus rapide. Meilleur pour les grandes fenêtres de contexte (>32K tokens).

De combien de RAM ai-je besoin pour faire tourner des LLM en local ?

Taille du modèle Quantification RAM nécessaire
7B Q4_K_M 8 Go minimum
13B Q4_K_M 16 Go minimum
30B Q4_K_M 32-64 Go
35B MoE (3B actifs) Q4_K_M 16 Go (seuls les paramètres actifs sont chargés)

Benchmarking

Comment lancer mon premier benchmark ?

Trois commandes :

pip install asiai     # Installer
asiai detect          # Trouver les moteurs
asiai bench           # Lancer le benchmark

Combien de temps dure un benchmark ?

Un benchmark rapide (asiai bench --quick) prend environ 2 minutes. Une comparaison complète inter-moteurs avec plusieurs prompts et 3 exécutions prend 10-15 minutes.

Quelle est la précision des mesures de puissance ?

Les mesures de puissance IOReport ont moins de 1,5% d'écart par rapport à sudo powermetrics, validé sur 20 échantillons sur LM Studio (MLX) et Ollama (llama.cpp).

Puis-je comparer mes résultats avec d'autres utilisateurs Mac ?

Oui. Exécutez asiai bench --share pour soumettre anonymement vos résultats au classement communautaire. Utilisez asiai compare pour voir comment votre Mac se positionne.

Intégration avec les agents IA

Les agents IA peuvent-ils utiliser asiai ?

Oui. asiai inclut un serveur MCP avec 11 outils et 3 ressources. Installez avec pip install "asiai[mcp]" et configurez comme asiai mcp dans votre client MCP (Claude Code, Cursor, Windsurf). Voir le Guide d'intégration agent.

Quels outils MCP sont disponibles ?

11 outils : check_inference_health, get_inference_snapshot, list_models, detect_engines, run_benchmark, get_recommendations, diagnose, get_metrics_history, get_benchmark_history, refresh_engines, compare_engines.

3 ressources : asiai://status, asiai://models, asiai://system.