Benchmark para elegir. Dashboard para monitorear. Historial para detectar problemas.
asiai bench
asiai web
¿Te suena?
Ollama, LM Studio, mlx-lm — cada uno con su CLI, formatos y métricas. Sin terreno común.
Sin monitoreo VRAM en tiempo real, sin seguimiento de consumo, sin alertas térmicas. Vuelas a ciegas.
Benchmarking significa scripts curl, copiar números y comparar en hojas de cálculo.
Todo lo que necesitas para benchmark, monitoreo y optimización de inferencia local.
Mismo modelo en Ollama vs LM Studio vs mlx-lm. Un comando, números reales.
Mide el consumo GPU durante la inferencia. Conoce tus tok/s por vatio — nadie más lo hace.
Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Detección y configuración automática.
Solo stdlib Python. Sin requests, sin psutil, sin rich. Se instala en segundos.
Detecta throttling durante benchmarks. Alerta cuando tu Mac se sobrecalienta durante la inferencia.
Detecta caídas de rendimiento tras actualizaciones de OS o motor. Historial SQLite con retención de 90 días.
API JSON completa para automatización. /api/snapshot, /api/status, /api/metrics — integración con cualquier stack.
Endpoint /metrics integrado. Conecta Grafana, Datadog o cualquier herramienta compatible con Prometheus. Sin configuración.
Preguntas reales de r/LocalLLaMA, respondidas con un comando.
Comparación directa — la pregunta n°1 en r/LocalLLaMA.
LLMs ejecutándose 24/7 para agentes IA — monitorea VRAM, temperatura y rendimiento.
tok/s por vatio entre motores. Crítico para homelabs Mac Mini 24/7.
¿La actualización de Ollama o macOS rompió tu rendimiento? Detección automática via SQLite.
Benchmarks --context-size 64k. Sobrevive tu modelo a 256k de contexto?
Detección de deriva térmica entre ejecuciones. Único en asiai.
Metodología MLPerf/SPEC. Warmup, mediana, decodificación greedy. Comparte con confianza.
asiai doctor diagnostica sistema, motores y base de datos con sugerencias de solución.
Dashboard web dark/light con gráficos en vivo, progreso SSE y controles de benchmark.
Mismo motor, diferentes modelos. ¿Qué cuantización gana?
Expone /metrics, scrape con Prometheus, visualiza en Grafana. Observabilidad de nivel producción.
Tres comandos. Eso es todo.
brew install asiai
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motores encontrados
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Números de benchmarks reales en Apple Silicon.
MLX es 2,3x más rápido para arquitecturas MoE (Qwen3.5-35B-A3B) en Apple Silicon.
La VRAM se mantiene constante de 64k a 256k con DeltaNet — no documentado en ningún otro lugar.
Mismo modelo, mismo Mac: 30 tok/s en un motor, 71 tok/s en otro. El motor importa más.
8 métricas, metodología consistente, cada ejecución.
Velocidad de generación (tokens/seg)
Tiempo al primer token
Consumo GPU en vatios
Eficiencia energética
Varianza entre ejecuciones
Huella de memoria GPU
Estado de throttling
Escalado contexto largo
Instalación en segundos. Sin dependencias.
brew tap druide67/tap
brew install asiai
pip install asiai