Zum Inhalt

Erste Schritte

Apple Silicon AI — Multi-Engine LLM-Benchmark- und Monitoring-CLI.

asiai vergleicht Inferenz-Engines direkt auf Ihrem Mac. Laden Sie dasselbe Modell auf Ollama und LM Studio, starten Sie asiai bench und erhalten Sie die Zahlen. Kein Raten, kein Bauchgefühl — nur tok/s, TTFT, Energieeffizienz und Stabilität pro Engine.

Schnellstart

brew tap druide67/tap
brew install asiai

Oder mit pip:

pip install asiai

Dann erkennen Sie Ihre Engines:

asiai detect

Und benchmarken:

asiai bench -m qwen3.5 --runs 3 --power

Was wir messen

Metrik Beschreibung
tok/s Generierungsgeschwindigkeit (Tokens/Sek.), ohne Prompt-Verarbeitung
TTFT Time to First Token — Prompt-Verarbeitungslatenz
Power GPU-Leistungsaufnahme in Watt (sudo powermetrics)
tok/s/W Energieeffizienz — Tokens pro Sekunde pro Watt
Stability Lauf-zu-Lauf-Varianz: stabil (<5%), variabel (<10%), instabil (>10%)
VRAM GPU-Speicherbedarf (nur Ollama)
Thermal CPU-Throttling-Status und Geschwindigkeitsbegrenzung

Unterstützte Engines

Engine Port API
Ollama 11434 Nativ
LM Studio 1234 OpenAI-kompatibel
mlx-lm 8080 OpenAI-kompatibel
llama.cpp 8080 OpenAI-kompatibel
vllm-mlx 8000 OpenAI-kompatibel

Voraussetzungen

  • macOS auf Apple Silicon (M1 / M2 / M3 / M4)
  • Python 3.11+
  • Mindestens eine lokal laufende Inferenz-Engine

Keine Abhängigkeiten

Der Kern verwendet ausschließlich die Python-Standardbibliothek — urllib, sqlite3, subprocess, argparse. Kein requests, kein psutil, kein rich.

Optionale Extras:

  • asiai[tui] — Textual Terminal-Dashboard
  • asiai[dev] — pytest, ruff, pytest-cov