Benchmark per scegliere. Dashboard per monitorare. Storico per individuare i problemi.
asiai bench
asiai web
Ti suona familiare?
Ollama, LM Studio, mlx-lm — ognuno con il proprio CLI, formati e metriche. Nessun terreno comune.
Nessun monitoraggio VRAM in tempo reale, nessun tracking energetico, nessun allarme termico. Voli alla cieca.
Benchmark significa script curl, copiare numeri e confrontare nei fogli di calcolo.
Tutto ciò che serve per benchmark, monitoraggio e ottimizzazione dell'inferenza locale.
Stesso modello su Ollama vs LM Studio vs mlx-lm. Un comando, numeri reali.
Misura la potenza GPU durante l'inferenza. Conosci i tuoi tok/s per watt — nessun altro lo fa.
Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Rilevamento e configurazione automatici.
Solo stdlib Python. Nessun requests, nessun psutil, nessun rich. Si installa in secondi.
Rileva il throttling durante i benchmark. Avvisa quando il Mac si surriscalda durante l'inferenza.
Rileva automaticamente cali di prestazioni dopo aggiornamenti OS o motore. Storico SQLite con ritenzione 90 giorni.
API JSON completa per l'automazione. /api/snapshot, /api/status, /api/metrics — integrazione con qualsiasi stack.
Endpoint /metrics integrato. Collega Grafana, Datadog o qualsiasi strumento compatibile con Prometheus. Zero configurazione.
Domande reali da r/LocalLLaMA, risposte con un comando.
Confronto diretto — la domanda n°1 su r/LocalLLaMA.
LLM in esecuzione 24/7 per agenti IA — monitora VRAM, temperatura e prestazioni.
tok/s per watt tra motori. Critico per homelab Mac Mini 24/7.
L'aggiornamento Ollama o macOS ha peggiorato le prestazioni? Rilevamento automatico via SQLite.
Benchmark --context-size 64k. Il tuo modello sopravvive a 256k di contesto?
Rilevamento deriva termica tra le esecuzioni. Unico in asiai.
Metodologia MLPerf/SPEC. Warmup, mediana, decodifica greedy. Condividi con fiducia.
asiai doctor diagnostica sistema, motori e database con suggerimenti di correzione.
Dashboard web dark/light con grafici live, avanzamento SSE e controlli benchmark.
Stesso motore, modelli diversi. Quale quantizzazione vince?
Esponi /metrics, scrape con Prometheus, visualizza in Grafana. Osservabilità production-grade.
Tre comandi. Tutto qui.
brew install asiai
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motori trovati
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Numeri da benchmark reali su Apple Silicon.
MLX è 2,3x più veloce per architetture MoE (Qwen3.5-35B-A3B) su Apple Silicon.
La VRAM resta costante da 64k a 256k di contesto con DeltaNet — non documentato altrove.
Stesso modello, stesso Mac: 30 tok/s su un motore, 71 tok/s su un altro. Il motore conta di più.
8 metriche, metodologia coerente, ogni esecuzione.
Velocità di generazione (token/sec)
Tempo al primo token
Consumo GPU in watt
Efficienza energetica
Varianza tra esecuzioni
Footprint memoria GPU
Stato di throttling
Scaling contesto lungo
Installazione in secondi. Zero dipendenze.
brew tap druide67/tap
brew install asiai
pip install asiai