Häufig gestellte Fragen

Allgemein

Was ist asiai?

asiai ist ein Open-Source-CLI-Tool, das LLM-Inferenz-Engines auf Apple-Silicon-Macs benchmarkt und überwacht. Es unterstützt 7 Engines (Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo) und misst tok/s, TTFT, Stromverbrauch und VRAM-Nutzung mit null Abhängigkeiten.

Funktioniert asiai auf Intel-Macs oder Linux?

Nein. asiai erfordert Apple Silicon (M1, M2, M3 oder M4). Es nutzt macOS-spezifische APIs (sysctl, vm_stat, ioreg, IOReport, launchd), die nur auf Apple-Silicon-Macs verfügbar sind.

Benötigt asiai sudo oder Root-Zugang?

Nein. Alle Funktionen einschließlich GPU-Observability (ioreg) und Leistungsüberwachung (IOReport) funktionieren ohne sudo. Das optionale --power-Flag zur Kreuzvalidierung mit powermetrics ist die einzige Funktion, die sudo verwendet.

Engines und Leistung

Welche ist die schnellste LLM-Engine auf Apple Silicon?

In unseren Benchmarks auf M4 Pro 64 GB mit Qwen3-Coder-30B (Q4_K_M) erreicht LM Studio (MLX-Backend) 102 tok/s gegenüber 70 tok/s von Ollama — 46% schneller bei der Token-Generierung. LM Studio ist außerdem 82% energieeffizienter (8,23 vs 4,53 tok/s/W). Siehe unseren detaillierten Vergleich.

Ist Ollama oder LM Studio besser für Mac?

Es kommt auf den Anwendungsfall an:

LM Studio (MLX): Am besten für Durchsatz (Code-Generierung, lange Antworten). Schneller, effizienter, weniger VRAM.
Ollama (llama.cpp): Am besten für Latenz (Chatbots, interaktive Nutzung). Schnellere TTFT. Besser für große Kontextfenster (>32K Tokens).

Wie viel RAM brauche ich, um LLMs lokal zu betreiben?

Modellgröße	Quantisierung	Benötigter RAM
7B	Q4_K_M	Mindestens 8 GB
13B	Q4_K_M	Mindestens 16 GB
30B	Q4_K_M	32-64 GB
35B MoE (3B aktiv)	Q4_K_M	16 GB (nur aktive Parameter geladen)

Benchmarking

Wie starte ich meinen ersten Benchmark?

Drei Befehle:

pip install asiai     # Installieren
asiai detect          # Engines finden
asiai bench           # Benchmark starten

Wie lange dauert ein Benchmark?

Ein Schnellbenchmark (asiai bench --quick) dauert etwa 2 Minuten. Ein vollständiger Engine-übergreifender Vergleich mit mehreren Prompts und 3 Durchläufen dauert 10-15 Minuten.

Wie genau sind die Leistungsmessungen?

IOReport-Leistungswerte haben weniger als 1,5% Abweichung im Vergleich zu sudo powermetrics, validiert über 20 Proben auf LM Studio (MLX) und Ollama (llama.cpp).

Kann ich meine Ergebnisse mit anderen Mac-Nutzern vergleichen?

Ja. Führen Sie asiai bench --share aus, um Ergebnisse anonym an das Community-Leaderboard zu übermitteln. Verwenden Sie asiai compare, um zu sehen, wie Ihr Mac abschneidet.

Integration mit KI-Agenten

Können KI-Agenten asiai nutzen?

Ja. asiai enthält einen MCP-Server mit 11 Tools und 3 Ressourcen. Installieren Sie mit pip install "asiai[mcp]" und konfigurieren Sie als asiai mcp in Ihrem MCP-Client (Claude Code, Cursor, Windsurf). Siehe die Anleitung zur Agentenintegration.

Welche MCP-Tools sind verfügbar?

11 Tools: check_inference_health, get_inference_snapshot, list_models, detect_engines, run_benchmark, get_recommendations, diagnose, get_metrics_history, get_benchmark_history, refresh_engines, compare_engines.

3 Ressourcen: asiai://status, asiai://models, asiai://system.