asiai logo

Welches LLM? Welche Engine?
Welche Kombi gewinnt auf Ihrem Mac?

Benchmarken zum Auswählen. Dashboard zum Überwachen. Verlauf zum Erkennen von Problemen.

Python 3.11+ Apache 2.0 Apple Silicon
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

Das Problem lokaler LLMs

Kommt Ihnen das bekannt vor?

🧩

Fragmentiert

Ollama, LM Studio, mlx-lm — jede mit eigenem CLI, Formaten und Metriken. Kein gemeinsamer Nenner.

🙈

Blind

Kein Echtzeit-VRAM-Monitoring, kein Stromverbrauch-Tracking, keine Thermal-Warnungen. Sie fliegen blind.

📋

Manuell

Benchmarking bedeutet curl-Skripte, Zahlen kopieren und in Tabellen vergleichen.

Entwickelt für Apple Silicon Power User

Alles was Sie brauchen, um lokale Inferenz zu benchmarken, überwachen und optimieren.

⚔️

Direkte Vergleichs-Benchmarks

Gleiches Modell auf Ollama vs LM Studio vs mlx-lm. Ein Befehl, echte Zahlen.

Energieeffizienz

GPU-Leistung während der Inferenz messen. Kennen Sie Ihre tok/s pro Watt — das macht sonst niemand.

🔧

5 Engines, ein CLI

Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Automatisch erkannt und konfiguriert.

📦

Keine Abhängigkeiten

Nur Python-Standardbibliothek. Kein requests, kein psutil, kein rich. Installation in Sekunden.

🌡️

Thermische Intelligenz

Erkennt Throttling während Benchmarks. Warnt, wenn Ihr Mac während der Inferenz überhitzt.

📉

Regressionserkennung

Erkennt Leistungseinbrüche nach OS- oder Engine-Updates automatisch. SQLite-Verlauf mit 90 Tagen Aufbewahrung.

🌐

REST-API

Vollständige JSON-API für Automatisierung. /api/snapshot, /api/status, /api/metrics — Integration mit jedem Stack.

📈

Prometheus nativ

Integrierter /metrics-Endpunkt. Anbindung an Grafana, Datadog oder jedes Prometheus-kompatible Tool. Null Konfiguration.

Was werden Sie entdecken?

Echte Fragen von r/LocalLLaMA, mit einem Befehl beantwortet.

🏆

"Welche Engine ist am schnellsten?"

Direktvergleich — die Frage Nr. 1 auf r/LocalLLaMA.

🤖

"Multi-Agent-Schwarm überwachen"

LLMs laufen 24/7 für KI-Agenten — VRAM, Temperatur und Leistung verfolgen.

🔋

"Energieeffizienz vergleichen"

tok/s pro Watt zwischen Engines. Kritisch für 24/7 Mac Mini Homelabs.

🚨

"Regressionen nach Updates erkennen"

Hat das Ollama- oder macOS-Update Ihre Leistung verschlechtert? Automatische Erkennung via SQLite.

📏

"Langkontext-Unterstützung testen"

--context-size 64k Benchmarks. Übersteht Ihr Modell 256k Kontext?

🔥

"Drosselt mein Mac thermisch?"

Drift-Erkennung über Benchmark-Läufe hinweg. Einzigartig bei asiai.

📊

"Reproduzierbare Benchmarks"

MLPerf/SPEC-Methodik. Warmup, Median, Greedy-Dekodierung. Mit Vertrauen teilen.

🩺

"Gesundheitscheck mit einem Befehl"

asiai doctor diagnostiziert System, Engines und Datenbank mit Lösungsvorschlägen.

💻

"Visuelles Dashboard"

Dark/Light Web-Dashboard mit Live-Charts, SSE-Fortschritt und Benchmark-Steuerung.

🔄

"LLMs direkt vergleichen"

Gleiche Engine, verschiedene Modelle. Welche Quantisierung gewinnt?

📡

"Prometheus + Grafana Monitoring"

Exponieren Sie /metrics, scrapen mit Prometheus, visualisieren in Grafana. Produktionsreife Observability.

In 60 Sekunden startklar

Drei Befehle. Das war's.

1

Installieren

brew install asiai
2

Erkennen

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3 Engines gefunden
3

Benchmarken

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

Echte Entdeckungen

Zahlen aus echten Benchmarks auf Apple Silicon.

2.3x

MLX vs llama.cpp

MLX ist 2,3x schneller für MoE-Architekturen (Qwen3.5-35B-A3B) auf Apple Silicon.

Flat

VRAM: 64k → 256k

VRAM bleibt konstant von 64k bis 256k Kontext mit DeltaNet — nirgendwo anders dokumentiert.

30 vs 71

Engine > Modell

Gleiches Modell, gleicher Mac: 30 tok/s auf einer Engine, 71 tok/s auf einer anderen. Die Engine zählt mehr.

Unterstützte Engines

Automatisch erkannt, keine Konfiguration nötig.

Engine Standard-Port API VRAM
Ollama 11434 Nativ
LM Studio 1234 OpenAI-kompatibel
mlx-lm 8080 OpenAI-kompatibel
llama.cpp 8080 OpenAI-kompatibel
vllm-mlx 8000 OpenAI-kompatibel

Was wir messen

8 Metriken, konsistente Methodik, bei jedem Lauf.

🚀

tok/s

Generierungsgeschwindigkeit (Tokens/Sek.)

⏱️

TTFT

Zeit bis zum ersten Token

Power (W)

GPU-Leistungsaufnahme in Watt

🔋

tok/s/W

Energieeffizienz

📈

Stability

Lauf-zu-Lauf-Varianz

💾

VRAM

GPU-Speicherbedarf

🌡️

Thermal

Throttling-Status

📏

Context

Langkontext-Performance

Loslegen

Installation in Sekunden. Keine Abhängigkeiten.

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

Home