Häufig gestellte Fragen
Allgemein
Was ist asiai?
asiai ist ein Open-Source-CLI-Tool, das LLM-Inferenz-Engines auf Apple-Silicon-Macs benchmarkt und überwacht. Es unterstützt 7 Engines (Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo) und misst tok/s, TTFT, Stromverbrauch und VRAM-Nutzung mit null Abhängigkeiten.
Funktioniert asiai auf Intel-Macs oder Linux?
Nein. asiai erfordert Apple Silicon (M1, M2, M3 oder M4). Es nutzt macOS-spezifische APIs (sysctl, vm_stat, ioreg, IOReport, launchd), die nur auf Apple-Silicon-Macs verfügbar sind.
Benötigt asiai sudo oder Root-Zugang?
Nein. Alle Funktionen einschließlich GPU-Observability (ioreg) und Leistungsüberwachung (IOReport) funktionieren ohne sudo. Das optionale --power-Flag zur Kreuzvalidierung mit powermetrics ist die einzige Funktion, die sudo verwendet.
Engines und Leistung
Welche ist die schnellste LLM-Engine auf Apple Silicon?
In unseren Benchmarks auf M4 Pro 64 GB mit Qwen3-Coder-30B (Q4_K_M) erreicht LM Studio (MLX-Backend) 102 tok/s gegenüber 70 tok/s von Ollama — 46% schneller bei der Token-Generierung. LM Studio ist außerdem 82% energieeffizienter (8,23 vs 4,53 tok/s/W). Siehe unseren detaillierten Vergleich.
Ist Ollama oder LM Studio besser für Mac?
Es kommt auf den Anwendungsfall an:
- LM Studio (MLX): Am besten für Durchsatz (Code-Generierung, lange Antworten). Schneller, effizienter, weniger VRAM.
- Ollama (llama.cpp): Am besten für Latenz (Chatbots, interaktive Nutzung). Schnellere TTFT. Besser für große Kontextfenster (>32K Tokens).
Wie viel RAM brauche ich, um LLMs lokal zu betreiben?
| Modellgröße | Quantisierung | Benötigter RAM |
|---|---|---|
| 7B | Q4_K_M | Mindestens 8 GB |
| 13B | Q4_K_M | Mindestens 16 GB |
| 30B | Q4_K_M | 32-64 GB |
| 35B MoE (3B aktiv) | Q4_K_M | 16 GB (nur aktive Parameter geladen) |
Benchmarking
Wie starte ich meinen ersten Benchmark?
Drei Befehle:
pip install asiai # Installieren
asiai detect # Engines finden
asiai bench # Benchmark starten
Wie lange dauert ein Benchmark?
Ein Schnellbenchmark (asiai bench --quick) dauert etwa 2 Minuten. Ein vollständiger Engine-übergreifender Vergleich mit mehreren Prompts und 3 Durchläufen dauert 10-15 Minuten.
Wie genau sind die Leistungsmessungen?
IOReport-Leistungswerte haben weniger als 1,5% Abweichung im Vergleich zu sudo powermetrics, validiert über 20 Proben auf LM Studio (MLX) und Ollama (llama.cpp).
Kann ich meine Ergebnisse mit anderen Mac-Nutzern vergleichen?
Ja. Führen Sie asiai bench --share aus, um Ergebnisse anonym an das Community-Leaderboard zu übermitteln. Verwenden Sie asiai compare, um zu sehen, wie Ihr Mac abschneidet.
Integration mit KI-Agenten
Können KI-Agenten asiai nutzen?
Ja. asiai enthält einen MCP-Server mit 11 Tools und 3 Ressourcen. Installieren Sie mit pip install "asiai[mcp]" und konfigurieren Sie als asiai mcp in Ihrem MCP-Client (Claude Code, Cursor, Windsurf). Siehe die Anleitung zur Agentenintegration.
Welche MCP-Tools sind verfügbar?
11 Tools: check_inference_health, get_inference_snapshot, list_models, detect_engines, run_benchmark, get_recommendations, diagnose, get_metrics_history, get_benchmark_history, refresh_engines, compare_engines.
3 Ressourcen: asiai://status, asiai://models, asiai://system.