Benchmarken zum Auswählen. Dashboard zum Überwachen. Verlauf zum Erkennen von Problemen.
asiai bench
asiai web
Kommt Ihnen das bekannt vor?
Ollama, LM Studio, mlx-lm — jede mit eigenem CLI, Formaten und Metriken. Kein gemeinsamer Nenner.
Kein Echtzeit-VRAM-Monitoring, kein Stromverbrauch-Tracking, keine Thermal-Warnungen. Sie fliegen blind.
Benchmarking bedeutet curl-Skripte, Zahlen kopieren und in Tabellen vergleichen.
Alles was Sie brauchen, um lokale Inferenz zu benchmarken, überwachen und optimieren.
Gleiches Modell auf Ollama vs LM Studio vs mlx-lm. Ein Befehl, echte Zahlen.
GPU-Leistung während der Inferenz messen. Kennen Sie Ihre tok/s pro Watt — das macht sonst niemand.
Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Automatisch erkannt und konfiguriert.
Nur Python-Standardbibliothek. Kein requests, kein psutil, kein rich. Installation in Sekunden.
Erkennt Throttling während Benchmarks. Warnt, wenn Ihr Mac während der Inferenz überhitzt.
Erkennt Leistungseinbrüche nach OS- oder Engine-Updates automatisch. SQLite-Verlauf mit 90 Tagen Aufbewahrung.
Vollständige JSON-API für Automatisierung. /api/snapshot, /api/status, /api/metrics — Integration mit jedem Stack.
Integrierter /metrics-Endpunkt. Anbindung an Grafana, Datadog oder jedes Prometheus-kompatible Tool. Null Konfiguration.
Echte Fragen von r/LocalLLaMA, mit einem Befehl beantwortet.
Direktvergleich — die Frage Nr. 1 auf r/LocalLLaMA.
LLMs laufen 24/7 für KI-Agenten — VRAM, Temperatur und Leistung verfolgen.
tok/s pro Watt zwischen Engines. Kritisch für 24/7 Mac Mini Homelabs.
Hat das Ollama- oder macOS-Update Ihre Leistung verschlechtert? Automatische Erkennung via SQLite.
--context-size 64k Benchmarks. Übersteht Ihr Modell 256k Kontext?
Drift-Erkennung über Benchmark-Läufe hinweg. Einzigartig bei asiai.
MLPerf/SPEC-Methodik. Warmup, Median, Greedy-Dekodierung. Mit Vertrauen teilen.
asiai doctor diagnostiziert System, Engines und Datenbank mit Lösungsvorschlägen.
Dark/Light Web-Dashboard mit Live-Charts, SSE-Fortschritt und Benchmark-Steuerung.
Gleiche Engine, verschiedene Modelle. Welche Quantisierung gewinnt?
Exponieren Sie /metrics, scrapen mit Prometheus, visualisieren in Grafana. Produktionsreife Observability.
Drei Befehle. Das war's.
brew install asiai
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 Engines gefunden
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Zahlen aus echten Benchmarks auf Apple Silicon.
MLX ist 2,3x schneller für MoE-Architekturen (Qwen3.5-35B-A3B) auf Apple Silicon.
VRAM bleibt konstant von 64k bis 256k Kontext mit DeltaNet — nirgendwo anders dokumentiert.
Gleiches Modell, gleicher Mac: 30 tok/s auf einer Engine, 71 tok/s auf einer anderen. Die Engine zählt mehr.
8 Metriken, konsistente Methodik, bei jedem Lauf.
Generierungsgeschwindigkeit (Tokens/Sek.)
Zeit bis zum ersten Token
GPU-Leistungsaufnahme in Watt
Energieeffizienz
Lauf-zu-Lauf-Varianz
GPU-Speicherbedarf
Throttling-Status
Langkontext-Performance
Installation in Sekunden. Keine Abhängigkeiten.
brew tap druide67/tap
brew install asiai
pip install asiai