Welches LLM? Welche Engine?
Welche Kombi gewinnt auf Ihrem Mac?

Benchmarken zum Auswählen. Dashboard zum Überwachen. Verlauf zum Erkennen von Problemen.

Loslegen Auf GitHub ansehen

Python 3.11+ Apache 2.0 Apple Silicon

asiai bench

asiai web

Das Problem lokaler LLMs

Kommt Ihnen das bekannt vor?

🧩

Fragmentiert

Ollama, LM Studio, mlx-lm — jede mit eigenem CLI, Formaten und Metriken. Kein gemeinsamer Nenner.

🙈

Blind

Kein Echtzeit-VRAM-Monitoring, kein Stromverbrauch-Tracking, keine Thermal-Warnungen. Sie fliegen blind.

📋

Manuell

Benchmarking bedeutet curl-Skripte, Zahlen kopieren und in Tabellen vergleichen.

Entwickelt für Apple Silicon Power User

Alles was Sie brauchen, um lokale Inferenz zu benchmarken, überwachen und optimieren.

⚔️

Direkte Vergleichs-Benchmarks

Gleiches Modell auf Ollama vs LM Studio vs mlx-lm. Ein Befehl, echte Zahlen.

⚡

Energieeffizienz

GPU-Leistung während der Inferenz messen. Kennen Sie Ihre tok/s pro Watt — das macht sonst niemand.

🔧

5 Engines, ein CLI

Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Automatisch erkannt und konfiguriert.

📦

Keine Abhängigkeiten

Nur Python-Standardbibliothek. Kein requests, kein psutil, kein rich. Installation in Sekunden.

🌡️

Thermische Intelligenz

Erkennt Throttling während Benchmarks. Warnt, wenn Ihr Mac während der Inferenz überhitzt.

📉

Regressionserkennung

Erkennt Leistungseinbrüche nach OS- oder Engine-Updates automatisch. SQLite-Verlauf mit 90 Tagen Aufbewahrung.

🌐

REST-API

Vollständige JSON-API für Automatisierung. /api/snapshot, /api/status, /api/metrics — Integration mit jedem Stack.

📈

Prometheus nativ

Integrierter /metrics-Endpunkt. Anbindung an Grafana, Datadog oder jedes Prometheus-kompatible Tool. Null Konfiguration.

Was werden Sie entdecken?

Echte Fragen von r/LocalLLaMA, mit einem Befehl beantwortet.

🏆

"Welche Engine ist am schnellsten?"

Direktvergleich — die Frage Nr. 1 auf r/LocalLLaMA.

🤖

"Multi-Agent-Schwarm überwachen"

LLMs laufen 24/7 für KI-Agenten — VRAM, Temperatur und Leistung verfolgen.

🔋

"Energieeffizienz vergleichen"

tok/s pro Watt zwischen Engines. Kritisch für 24/7 Mac Mini Homelabs.

🚨

"Regressionen nach Updates erkennen"

Hat das Ollama- oder macOS-Update Ihre Leistung verschlechtert? Automatische Erkennung via SQLite.

📏

"Langkontext-Unterstützung testen"

--context-size 64k Benchmarks. Übersteht Ihr Modell 256k Kontext?

🔥

"Drosselt mein Mac thermisch?"

Drift-Erkennung über Benchmark-Läufe hinweg. Einzigartig bei asiai.

📊

"Reproduzierbare Benchmarks"

MLPerf/SPEC-Methodik. Warmup, Median, Greedy-Dekodierung. Mit Vertrauen teilen.

🩺

"Gesundheitscheck mit einem Befehl"

asiai doctor diagnostiziert System, Engines und Datenbank mit Lösungsvorschlägen.

💻

"Visuelles Dashboard"

Dark/Light Web-Dashboard mit Live-Charts, SSE-Fortschritt und Benchmark-Steuerung.

🔄

"LLMs direkt vergleichen"

Gleiche Engine, verschiedene Modelle. Welche Quantisierung gewinnt?

📡

"Prometheus + Grafana Monitoring"

Exponieren Sie /metrics, scrapen mit Prometheus, visualisieren in Grafana. Produktionsreife Observability.

In 60 Sekunden startklar

Drei Befehle. Das war's.

Installieren

brew install asiai

Erkennen

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 Engines gefunden

Benchmarken

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

Echte Entdeckungen

Zahlen aus echten Benchmarks auf Apple Silicon.

2.3x

MLX vs llama.cpp

MLX ist 2,3x schneller für MoE-Architekturen (Qwen3.5-35B-A3B) auf Apple Silicon.

Flat

VRAM: 64k → 256k

VRAM bleibt konstant von 64k bis 256k Kontext mit DeltaNet — nirgendwo anders dokumentiert.

30 vs 71

Engine > Modell

Gleiches Modell, gleicher Mac: 30 tok/s auf einer Engine, 71 tok/s auf einer anderen. Die Engine zählt mehr.

Unterstützte Engines

Automatisch erkannt, keine Konfiguration nötig.

Engine	Standard-Port	API	VRAM
Ollama	`11434`	Nativ	✔
LM Studio	`1234`	OpenAI-kompatibel	—
mlx-lm	`8080`	OpenAI-kompatibel	—
llama.cpp	`8080`	OpenAI-kompatibel	—
vllm-mlx	`8000`	OpenAI-kompatibel	—

Was wir messen

8 Metriken, konsistente Methodik, bei jedem Lauf.

🚀

tok/s

Generierungsgeschwindigkeit (Tokens/Sek.)

⏱️

TTFT

Zeit bis zum ersten Token

⚡

Power (W)

GPU-Leistungsaufnahme in Watt

🔋

tok/s/W

Energieeffizienz

📈

Stability

Lauf-zu-Lauf-Varianz

💾

VRAM

GPU-Speicherbedarf

🌡️

Thermal

Throttling-Status

📏

Context

Langkontext-Performance

Loslegen

Installation in Sekunden. Keine Abhängigkeiten.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub Dokumentation Methodik Apache 2.0

Welches LLM? Welche Engine?Welche Kombi gewinnt auf Ihrem Mac?

Das Problem lokaler LLMs

Fragmentiert

Blind

Manuell

Entwickelt für Apple Silicon Power User

Direkte Vergleichs-Benchmarks

Energieeffizienz

5 Engines, ein CLI

Keine Abhängigkeiten

Thermische Intelligenz

Regressionserkennung

REST-API

Prometheus nativ

Was werden Sie entdecken?

"Welche Engine ist am schnellsten?"

"Multi-Agent-Schwarm überwachen"

"Energieeffizienz vergleichen"

"Regressionen nach Updates erkennen"

"Langkontext-Unterstützung testen"

"Drosselt mein Mac thermisch?"

"Reproduzierbare Benchmarks"

"Gesundheitscheck mit einem Befehl"

"Visuelles Dashboard"

"LLMs direkt vergleichen"

"Prometheus + Grafana Monitoring"

In 60 Sekunden startklar

Installieren

Erkennen

Benchmarken

Echte Entdeckungen

MLX vs llama.cpp

VRAM: 64k → 256k

Engine > Modell

Unterstützte Engines

Was wir messen

tok/s

TTFT

Power (W)

tok/s/W

Stability

VRAM

Thermal

Context

Loslegen

Home

Welches LLM? Welche Engine?
Welche Kombi gewinnt auf Ihrem Mac?