Erste Schritte
Apple Silicon AI — Multi-Engine LLM-Benchmark- und Monitoring-CLI.
asiai vergleicht Inferenz-Engines direkt auf Ihrem Mac. Laden Sie dasselbe Modell auf Ollama und LM Studio, starten Sie asiai bench und erhalten Sie die Zahlen. Kein Raten, kein Bauchgefühl — nur tok/s, TTFT, Energieeffizienz und Stabilität pro Engine.
Schnellstart
brew tap druide67/tap
brew install asiai
Oder mit pip:
pip install asiai
Dann erkennen Sie Ihre Engines:
asiai detect
Und benchmarken:
asiai bench -m qwen3.5 --runs 3 --power
Was wir messen
| Metrik | Beschreibung |
|---|---|
| tok/s | Generierungsgeschwindigkeit (Tokens/Sek.), ohne Prompt-Verarbeitung |
| TTFT | Time to First Token — Prompt-Verarbeitungslatenz |
| Power | GPU-Leistungsaufnahme in Watt (sudo powermetrics) |
| tok/s/W | Energieeffizienz — Tokens pro Sekunde pro Watt |
| Stability | Lauf-zu-Lauf-Varianz: stabil (<5%), variabel (<10%), instabil (>10%) |
| VRAM | GPU-Speicherbedarf (nur Ollama) |
| Thermal | CPU-Throttling-Status und Geschwindigkeitsbegrenzung |
Unterstützte Engines
| Engine | Port | API |
|---|---|---|
| Ollama | 11434 | Nativ |
| LM Studio | 1234 | OpenAI-kompatibel |
| mlx-lm | 8080 | OpenAI-kompatibel |
| llama.cpp | 8080 | OpenAI-kompatibel |
| vllm-mlx | 8000 | OpenAI-kompatibel |
Voraussetzungen
- macOS auf Apple Silicon (M1 / M2 / M3 / M4)
- Python 3.11+
- Mindestens eine lokal laufende Inferenz-Engine
Keine Abhängigkeiten
Der Kern verwendet ausschließlich die Python-Standardbibliothek — urllib, sqlite3, subprocess, argparse. Kein requests, kein psutil, kein rich.
Optionale Extras:
asiai[tui]— Textual Terminal-Dashboardasiai[dev]— pytest, ruff, pytest-cov