asiai logo

¿Cuál LLM? ¿Cuál motor?
¿Qué combo gana en tu Mac?

Benchmark para elegir. Dashboard para monitorear. Historial para detectar problemas.

Python 3.11+ Apache 2.0 Apple Silicon
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

El problema de los LLM locales

¿Te suena?

🧩

Fragmentado

Ollama, LM Studio, mlx-lm — cada uno con su CLI, formatos y métricas. Sin terreno común.

🙈

A ciegas

Sin monitoreo VRAM en tiempo real, sin seguimiento de consumo, sin alertas térmicas. Vuelas a ciegas.

📋

Manual

Benchmarking significa scripts curl, copiar números y comparar en hojas de cálculo.

Construido para power users de Apple Silicon

Todo lo que necesitas para benchmark, monitoreo y optimización de inferencia local.

⚔️

Benchmarks cara a cara

Mismo modelo en Ollama vs LM Studio vs mlx-lm. Un comando, números reales.

Eficiencia energética

Mide el consumo GPU durante la inferencia. Conoce tus tok/s por vatio — nadie más lo hace.

🔧

5 motores, un CLI

Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Detección y configuración automática.

📦

Sin dependencias

Solo stdlib Python. Sin requests, sin psutil, sin rich. Se instala en segundos.

🌡️

Inteligencia térmica

Detecta throttling durante benchmarks. Alerta cuando tu Mac se sobrecalienta durante la inferencia.

📉

Detección de regresiones

Detecta caídas de rendimiento tras actualizaciones de OS o motor. Historial SQLite con retención de 90 días.

🌐

API REST

API JSON completa para automatización. /api/snapshot, /api/status, /api/metrics — integración con cualquier stack.

📈

Prometheus nativo

Endpoint /metrics integrado. Conecta Grafana, Datadog o cualquier herramienta compatible con Prometheus. Sin configuración.

¿Qué vas a descubrir?

Preguntas reales de r/LocalLLaMA, respondidas con un comando.

🏆

"¿Cuál motor es el más rápido?"

Comparación directa — la pregunta n°1 en r/LocalLLaMA.

🤖

"Monitorear un enjambre multi-agente"

LLMs ejecutándose 24/7 para agentes IA — monitorea VRAM, temperatura y rendimiento.

🔋

"Comparar eficiencia energética"

tok/s por vatio entre motores. Crítico para homelabs Mac Mini 24/7.

🚨

"Detectar regresiones tras actualizaciones"

¿La actualización de Ollama o macOS rompió tu rendimiento? Detección automática via SQLite.

📏

"Probar soporte de contexto largo"

Benchmarks --context-size 64k. Sobrevive tu modelo a 256k de contexto?

🔥

"¿Mi Mac tiene throttling térmico?"

Detección de deriva térmica entre ejecuciones. Único en asiai.

📊

"Benchmarks reproducibles"

Metodología MLPerf/SPEC. Warmup, mediana, decodificación greedy. Comparte con confianza.

🩺

"Diagnóstico en un comando"

asiai doctor diagnostica sistema, motores y base de datos con sugerencias de solución.

💻

"Dashboard visual"

Dashboard web dark/light con gráficos en vivo, progreso SSE y controles de benchmark.

🔄

"Comparar LLMs cara a cara"

Mismo motor, diferentes modelos. ¿Qué cuantización gana?

📡

"Monitoreo Prometheus + Grafana"

Expone /metrics, scrape con Prometheus, visualiza en Grafana. Observabilidad de nivel producción.

Funcionando en 60 segundos

Tres comandos. Eso es todo.

1

Instalar

brew install asiai
2

Detectar

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3 motores encontrados
3

Benchmark

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

Descubrimientos reales

Números de benchmarks reales en Apple Silicon.

2.3x

MLX vs llama.cpp

MLX es 2,3x más rápido para arquitecturas MoE (Qwen3.5-35B-A3B) en Apple Silicon.

Flat

VRAM: 64k → 256k

La VRAM se mantiene constante de 64k a 256k con DeltaNet — no documentado en ningún otro lugar.

30 vs 71

Motor > Modelo

Mismo modelo, mismo Mac: 30 tok/s en un motor, 71 tok/s en otro. El motor importa más.

Motores soportados

Detección automática, sin configuración.

Engine Puerto por defecto API VRAM
Ollama 11434 Nativa
LM Studio 1234 Compatible con OpenAI
mlx-lm 8080 Compatible con OpenAI
llama.cpp 8080 Compatible con OpenAI
vllm-mlx 8000 Compatible con OpenAI

Qué medimos

8 métricas, metodología consistente, cada ejecución.

🚀

tok/s

Velocidad de generación (tokens/seg)

⏱️

TTFT

Tiempo al primer token

Power (W)

Consumo GPU en vatios

🔋

tok/s/W

Eficiencia energética

📈

Stability

Varianza entre ejecuciones

💾

VRAM

Huella de memoria GPU

🌡️

Thermal

Estado de throttling

📏

Context

Escalado contexto largo

Empezar

Instalación en segundos. Sin dependencias.

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

Home