asiai logo

Quale LLM? Quale motore?
Quale combo vince sul tuo Mac?

Benchmark per scegliere. Dashboard per monitorare. Storico per individuare i problemi.

Python 3.11+ Apache 2.0 Apple Silicon
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

Il problema dei LLM locali

Ti suona familiare?

🧩

Frammentato

Ollama, LM Studio, mlx-lm — ognuno con il proprio CLI, formati e metriche. Nessun terreno comune.

🙈

Alla cieca

Nessun monitoraggio VRAM in tempo reale, nessun tracking energetico, nessun allarme termico. Voli alla cieca.

📋

Manuale

Benchmark significa script curl, copiare numeri e confrontare nei fogli di calcolo.

Progettato per power user Apple Silicon

Tutto ciò che serve per benchmark, monitoraggio e ottimizzazione dell'inferenza locale.

⚔️

Benchmark testa a testa

Stesso modello su Ollama vs LM Studio vs mlx-lm. Un comando, numeri reali.

Efficienza energetica

Misura la potenza GPU durante l'inferenza. Conosci i tuoi tok/s per watt — nessun altro lo fa.

🔧

5 motori, un CLI

Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Rilevamento e configurazione automatici.

📦

Zero dipendenze

Solo stdlib Python. Nessun requests, nessun psutil, nessun rich. Si installa in secondi.

🌡️

Intelligenza termica

Rileva il throttling durante i benchmark. Avvisa quando il Mac si surriscalda durante l'inferenza.

📉

Rilevamento regressioni

Rileva automaticamente cali di prestazioni dopo aggiornamenti OS o motore. Storico SQLite con ritenzione 90 giorni.

🌐

API REST

API JSON completa per l'automazione. /api/snapshot, /api/status, /api/metrics — integrazione con qualsiasi stack.

📈

Prometheus nativo

Endpoint /metrics integrato. Collega Grafana, Datadog o qualsiasi strumento compatibile con Prometheus. Zero configurazione.

Cosa scoprirai?

Domande reali da r/LocalLLaMA, risposte con un comando.

🏆

"Quale motore è il più veloce?"

Confronto diretto — la domanda n°1 su r/LocalLLaMA.

🤖

"Monitorare uno sciame multi-agente"

LLM in esecuzione 24/7 per agenti IA — monitora VRAM, temperatura e prestazioni.

🔋

"Confrontare l'efficienza energetica"

tok/s per watt tra motori. Critico per homelab Mac Mini 24/7.

🚨

"Rilevare regressioni dopo aggiornamenti"

L'aggiornamento Ollama o macOS ha peggiorato le prestazioni? Rilevamento automatico via SQLite.

📏

"Testare il supporto contesto lungo"

Benchmark --context-size 64k. Il tuo modello sopravvive a 256k di contesto?

🔥

"Il mio Mac fa throttling termico?"

Rilevamento deriva termica tra le esecuzioni. Unico in asiai.

📊

"Benchmark riproducibili"

Metodologia MLPerf/SPEC. Warmup, mediana, decodifica greedy. Condividi con fiducia.

🩺

"Diagnostica in un comando"

asiai doctor diagnostica sistema, motori e database con suggerimenti di correzione.

💻

"Dashboard visuale"

Dashboard web dark/light con grafici live, avanzamento SSE e controlli benchmark.

🔄

"Confrontare LLM testa a testa"

Stesso motore, modelli diversi. Quale quantizzazione vince?

📡

"Monitoraggio Prometheus + Grafana"

Esponi /metrics, scrape con Prometheus, visualizza in Grafana. Osservabilità production-grade.

Operativo in 60 secondi

Tre comandi. Tutto qui.

1

Installare

brew install asiai
2

Rilevare

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3 motori trovati
3

Benchmark

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

Scoperte reali

Numeri da benchmark reali su Apple Silicon.

2.3x

MLX vs llama.cpp

MLX è 2,3x più veloce per architetture MoE (Qwen3.5-35B-A3B) su Apple Silicon.

Flat

VRAM: 64k → 256k

La VRAM resta costante da 64k a 256k di contesto con DeltaNet — non documentato altrove.

30 vs 71

Motore > Modello

Stesso modello, stesso Mac: 30 tok/s su un motore, 71 tok/s su un altro. Il motore conta di più.

Motori supportati

Rilevamento automatico, zero configurazione.

Engine Porta predefinita API VRAM
Ollama 11434 Nativa
LM Studio 1234 Compatibile OpenAI
mlx-lm 8080 Compatibile OpenAI
llama.cpp 8080 Compatibile OpenAI
vllm-mlx 8000 Compatibile OpenAI

Cosa misuriamo

8 metriche, metodologia coerente, ogni esecuzione.

🚀

tok/s

Velocità di generazione (token/sec)

⏱️

TTFT

Tempo al primo token

Power (W)

Consumo GPU in watt

🔋

tok/s/W

Efficienza energetica

📈

Stability

Varianza tra esecuzioni

💾

VRAM

Footprint memoria GPU

🌡️

Thermal

Stato di throttling

📏

Context

Scaling contesto lungo

Inizia

Installazione in secondi. Zero dipendenze.

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

Home