Vai al contenuto

Per iniziare

Apple Silicon AI — CLI multi-motore per benchmark e monitoraggio LLM.

asiai confronta i motori di inferenza fianco a fianco sul tuo Mac. Carica lo stesso modello su Ollama e LM Studio, esegui asiai bench e ottieni i numeri. Niente supposizioni, niente sensazioni — solo tok/s, TTFT, efficienza energetica e stabilità per motore.

Avvio rapido

brew tap druide67/tap
brew install asiai

O con pip:

pip install asiai

Poi rileva i tuoi motori:

asiai detect

E esegui un benchmark:

asiai bench -m qwen3.5 --runs 3 --power

Cosa misuriamo

Metrica Descrizione
tok/s Velocità di generazione (token/sec), esclusa l'elaborazione del prompt
TTFT Time to first token — latenza di elaborazione del prompt
Power Consumo GPU in watt (sudo powermetrics)
tok/s/W Efficienza energetica — token al secondo per watt
Stability Varianza tra esecuzioni: stabile (<5%), variabile (<10%), instabile (>10%)
VRAM Footprint memoria GPU (solo Ollama)
Thermal Stato di throttling CPU e percentuale di limitazione

Motori supportati

Motore Porta API
Ollama 11434 Nativa
LM Studio 1234 Compatibile OpenAI
mlx-lm 8080 Compatibile OpenAI
llama.cpp 8080 Compatibile OpenAI
vllm-mlx 8000 Compatibile OpenAI

Requisiti

  • macOS su Apple Silicon (M1 / M2 / M3 / M4)
  • Python 3.11+
  • Almeno un motore di inferenza in esecuzione locale

Zero dipendenze

Il core usa solo la libreria standard Python — urllib, sqlite3, subprocess, argparse. Nessun requests, nessun psutil, nessun rich.

Extra opzionali:

  • asiai[tui] — Dashboard terminale Textual
  • asiai[dev] — pytest, ruff, pytest-cov