Preguntas frecuentes
General
¿Qué es asiai?
asiai es una herramienta CLI de código abierto que realiza benchmarks y monitorea motores de inferencia LLM en Macs con Apple Silicon. Soporta 7 motores (Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo) y mide tok/s, TTFT, consumo de energía y uso de VRAM sin dependencias externas.
¿Funciona asiai en Macs Intel o Linux?
No. asiai requiere Apple Silicon (M1, M2, M3 o M4). Utiliza APIs específicas de macOS (sysctl, vm_stat, ioreg, IOReport, launchd) que solo están disponibles en Macs con Apple Silicon.
¿Requiere asiai sudo o acceso root?
No. Todas las funciones, incluida la observabilidad de GPU (ioreg) y el monitoreo de energía (IOReport), funcionan sin sudo. La opción --power para validación cruzada con powermetrics es la única función que usa sudo.
Motores y rendimiento
¿Cuál es el motor LLM más rápido en Apple Silicon?
En nuestros benchmarks con M4 Pro 64GB y Qwen3-Coder-30B (Q4_K_M), LM Studio (backend MLX) alcanza 102 tok/s frente a los 70 tok/s de Ollama — un 46% más rápido en generación de tokens. LM Studio también es un 82% más eficiente energéticamente (8,23 vs 4,53 tok/s/W). Consulta nuestra comparación detallada.
¿Es mejor Ollama o LM Studio para Mac?
Depende de tu caso de uso:
- LM Studio (MLX): Ideal para rendimiento (generación de código, respuestas largas). Más rápido, más eficiente, menor VRAM.
- Ollama (llama.cpp): Ideal para latencia (chatbots, uso interactivo). TTFT más rápido. Mejor para ventanas de contexto grandes (>32K tokens).
¿Cuánta RAM necesito para ejecutar LLMs localmente?
| Tamaño del modelo | Cuantización | RAM necesaria |
|---|---|---|
| 7B | Q4_K_M | 8 GB mínimo |
| 13B | Q4_K_M | 16 GB mínimo |
| 30B | Q4_K_M | 32-64 GB |
| 35B MoE (3B activos) | Q4_K_M | 16 GB (solo se cargan los parámetros activos) |
Benchmarking
¿Cómo ejecuto mi primer benchmark?
Tres comandos:
pip install asiai # Instalar
asiai detect # Buscar motores
asiai bench # Ejecutar benchmark
¿Cuánto tarda un benchmark?
Un benchmark rápido (asiai bench --quick) tarda unos 2 minutos. Una comparación completa entre motores con múltiples prompts y 3 ejecuciones tarda 10-15 minutos.
¿Qué tan precisas son las mediciones de energía?
Las lecturas de energía de IOReport tienen menos del 1,5% de diferencia comparadas con sudo powermetrics, validado en 20 muestras tanto en LM Studio (MLX) como en Ollama (llama.cpp).
¿Puedo comparar mis resultados con otros usuarios de Mac?
Sí. Ejecuta asiai bench --share para enviar resultados anónimamente a la tabla de clasificación comunitaria. Usa asiai compare para ver cómo se compara tu Mac.
Integración con agentes de IA
¿Pueden los agentes de IA usar asiai?
Sí. asiai incluye un servidor MCP con 11 herramientas y 3 recursos. Instala con pip install "asiai[mcp]" y configúralo como asiai mcp en tu cliente MCP (Claude Code, Cursor, Windsurf). Consulta la Guía de integración con agentes.
¿Qué herramientas MCP están disponibles?
11 herramientas: check_inference_health, get_inference_snapshot, list_models, detect_engines, run_benchmark, get_recommendations, diagnose, get_metrics_history, get_benchmark_history, refresh_engines, compare_engines.
3 recursos: asiai://status, asiai://models, asiai://system.