Vai al contenuto

Domande frequenti

Generale

Cos'è asiai?

asiai è uno strumento CLI open-source che esegue benchmark e monitora i motori di inferenza LLM su Mac con Apple Silicon. Supporta 7 motori (Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo) e misura tok/s, TTFT, consumo energetico e utilizzo VRAM senza dipendenze esterne.

asiai funziona su Mac Intel o Linux?

No. asiai richiede Apple Silicon (M1, M2, M3 o M4). Utilizza API specifiche di macOS (sysctl, vm_stat, ioreg, IOReport, launchd) disponibili solo su Mac con Apple Silicon.

asiai richiede sudo o accesso root?

No. Tutte le funzionalità, inclusa l'osservabilità GPU (ioreg) e il monitoraggio energetico (IOReport), funzionano senza sudo. Il flag --power per la validazione incrociata con powermetrics è l'unica funzione che usa sudo.

Motori e prestazioni

Qual è il motore LLM più veloce su Apple Silicon?

Nei nostri benchmark su M4 Pro 64GB con Qwen3-Coder-30B (Q4_K_M), LM Studio (backend MLX) raggiunge 102 tok/s contro i 70 tok/s di Ollama — 46% più veloce nella generazione di token. LM Studio è anche l'82% più efficiente energeticamente (8,23 vs 4,53 tok/s/W). Vedi il nostro confronto dettagliato.

È meglio Ollama o LM Studio per Mac?

Dipende dal caso d'uso:

  • LM Studio (MLX): Ideale per il throughput (generazione di codice, risposte lunghe). Più veloce, più efficiente, meno VRAM.
  • Ollama (llama.cpp): Ideale per la latenza (chatbot, uso interattivo). TTFT più rapido. Migliore per finestre di contesto grandi (>32K token).

Quanta RAM serve per eseguire LLM localmente?

Dimensione modello Quantizzazione RAM necessaria
7B Q4_K_M 8 GB minimo
13B Q4_K_M 16 GB minimo
30B Q4_K_M 32-64 GB
35B MoE (3B attivi) Q4_K_M 16 GB (solo i parametri attivi vengono caricati)

Benchmarking

Come eseguo il mio primo benchmark?

Tre comandi:

pip install asiai     # Installa
asiai detect          # Trova i motori
asiai bench           # Esegui benchmark

Quanto dura un benchmark?

Un benchmark rapido (asiai bench --quick) richiede circa 2 minuti. Un confronto completo cross-engine con prompt multipli e 3 esecuzioni richiede 10-15 minuti.

Quanto sono accurate le misurazioni di potenza?

Le letture di potenza IOReport hanno meno dell'1,5% di differenza rispetto a sudo powermetrics, validate su 20 campioni sia su LM Studio (MLX) che su Ollama (llama.cpp).

Posso confrontare i miei risultati con altri utenti Mac?

Sì. Esegui asiai bench --share per inviare i risultati in modo anonimo alla classifica comunitaria. Usa asiai compare per vedere come si confronta il tuo Mac.

Integrazione con agenti IA

Gli agenti IA possono usare asiai?

Sì. asiai include un server MCP con 11 strumenti e 3 risorse. Installa con pip install "asiai[mcp]" e configura come asiai mcp nel tuo client MCP (Claude Code, Cursor, Windsurf). Vedi la Guida all'integrazione con agenti.

Quali strumenti MCP sono disponibili?

11 strumenti: check_inference_health, get_inference_snapshot, list_models, detect_engines, run_benchmark, get_recommendations, diagnose, get_metrics_history, get_benchmark_history, refresh_engines, compare_engines.

3 risorse: asiai://status, asiai://models, asiai://system.