Quale LLM? Quale motore?
Quale combo vince sul tuo Mac?

Benchmark per scegliere. Dashboard per monitorare. Storico per individuare i problemi.

Inizia Vedi su GitHub

Python 3.11+ Apache 2.0 Apple Silicon

asiai bench

asiai web

Il problema dei LLM locali

Ti suona familiare?

🧩

Frammentato

Ollama, LM Studio, mlx-lm — ognuno con il proprio CLI, formati e metriche. Nessun terreno comune.

🙈

Alla cieca

Nessun monitoraggio VRAM in tempo reale, nessun tracking energetico, nessun allarme termico. Voli alla cieca.

📋

Manuale

Benchmark significa script curl, copiare numeri e confrontare nei fogli di calcolo.

Progettato per power user Apple Silicon

Tutto ciò che serve per benchmark, monitoraggio e ottimizzazione dell'inferenza locale.

⚔️

Benchmark testa a testa

Stesso modello su Ollama vs LM Studio vs mlx-lm. Un comando, numeri reali.

⚡

Efficienza energetica

Misura la potenza GPU durante l'inferenza. Conosci i tuoi tok/s per watt — nessun altro lo fa.

🔧

5 motori, un CLI

Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Rilevamento e configurazione automatici.

📦

Zero dipendenze

Solo stdlib Python. Nessun requests, nessun psutil, nessun rich. Si installa in secondi.

🌡️

Intelligenza termica

Rileva il throttling durante i benchmark. Avvisa quando il Mac si surriscalda durante l'inferenza.

📉

Rilevamento regressioni

Rileva automaticamente cali di prestazioni dopo aggiornamenti OS o motore. Storico SQLite con ritenzione 90 giorni.

🌐

API REST

API JSON completa per l'automazione. /api/snapshot, /api/status, /api/metrics — integrazione con qualsiasi stack.

📈

Prometheus nativo

Endpoint /metrics integrato. Collega Grafana, Datadog o qualsiasi strumento compatibile con Prometheus. Zero configurazione.

Cosa scoprirai?

Domande reali da r/LocalLLaMA, risposte con un comando.

🏆

"Quale motore è il più veloce?"

Confronto diretto — la domanda n°1 su r/LocalLLaMA.

🤖

"Monitorare uno sciame multi-agente"

LLM in esecuzione 24/7 per agenti IA — monitora VRAM, temperatura e prestazioni.

🔋

"Confrontare l'efficienza energetica"

tok/s per watt tra motori. Critico per homelab Mac Mini 24/7.

🚨

"Rilevare regressioni dopo aggiornamenti"

L'aggiornamento Ollama o macOS ha peggiorato le prestazioni? Rilevamento automatico via SQLite.

📏

"Testare il supporto contesto lungo"

Benchmark --context-size 64k. Il tuo modello sopravvive a 256k di contesto?

🔥

"Il mio Mac fa throttling termico?"

Rilevamento deriva termica tra le esecuzioni. Unico in asiai.

📊

"Benchmark riproducibili"

Metodologia MLPerf/SPEC. Warmup, mediana, decodifica greedy. Condividi con fiducia.

🩺

"Diagnostica in un comando"

asiai doctor diagnostica sistema, motori e database con suggerimenti di correzione.

💻

"Dashboard visuale"

Dashboard web dark/light con grafici live, avanzamento SSE e controlli benchmark.

🔄

"Confrontare LLM testa a testa"

Stesso motore, modelli diversi. Quale quantizzazione vince?

📡

"Monitoraggio Prometheus + Grafana"

Esponi /metrics, scrape con Prometheus, visualizza in Grafana. Osservabilità production-grade.

Operativo in 60 secondi

Tre comandi. Tutto qui.

Installare

brew install asiai

Rilevare

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motori trovati

Benchmark

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

Scoperte reali

Numeri da benchmark reali su Apple Silicon.

2.3x

MLX vs llama.cpp

MLX è 2,3x più veloce per architetture MoE (Qwen3.5-35B-A3B) su Apple Silicon.

Flat

VRAM: 64k → 256k

La VRAM resta costante da 64k a 256k di contesto con DeltaNet — non documentato altrove.

30 vs 71

Motore > Modello

Stesso modello, stesso Mac: 30 tok/s su un motore, 71 tok/s su un altro. Il motore conta di più.

Motori supportati

Rilevamento automatico, zero configurazione.

Engine	Porta predefinita	API	VRAM
Ollama	`11434`	Nativa	✔
LM Studio	`1234`	Compatibile OpenAI	—
mlx-lm	`8080`	Compatibile OpenAI	—
llama.cpp	`8080`	Compatibile OpenAI	—
vllm-mlx	`8000`	Compatibile OpenAI	—

Cosa misuriamo

8 metriche, metodologia coerente, ogni esecuzione.

🚀

tok/s

Velocità di generazione (token/sec)

⏱️

TTFT

Tempo al primo token

⚡

Power (W)

Consumo GPU in watt

🔋

tok/s/W

Efficienza energetica

📈

Stability

Varianza tra esecuzioni

💾

VRAM

Footprint memoria GPU

🌡️

Thermal

Stato di throttling

📏

Context

Scaling contesto lungo

Inizia

Installazione in secondi. Zero dipendenze.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub Documentazione Metodologia Apache 2.0

Quale LLM? Quale motore?Quale combo vince sul tuo Mac?

Il problema dei LLM locali

Frammentato

Alla cieca

Manuale

Progettato per power user Apple Silicon

Benchmark testa a testa

Efficienza energetica

5 motori, un CLI

Zero dipendenze

Intelligenza termica

Rilevamento regressioni

API REST

Prometheus nativo

Cosa scoprirai?

"Quale motore è il più veloce?"

"Monitorare uno sciame multi-agente"

"Confrontare l'efficienza energetica"

"Rilevare regressioni dopo aggiornamenti"

"Testare il supporto contesto lungo"

"Il mio Mac fa throttling termico?"

"Benchmark riproducibili"

"Diagnostica in un comando"

"Dashboard visuale"

"Confrontare LLM testa a testa"

"Monitoraggio Prometheus + Grafana"

Operativo in 60 secondi

Installare

Rilevare

Benchmark

Scoperte reali

MLX vs llama.cpp

VRAM: 64k → 256k

Motore > Modello

Motori supportati

Cosa misuriamo

tok/s

TTFT

Power (W)

tok/s/W

Stability

VRAM

Thermal

Context

Inizia

Home

Quale LLM? Quale motore?
Quale combo vince sul tuo Mac?