¿Cuál LLM? ¿Cuál motor?
¿Qué combo gana en tu Mac?

Benchmark para elegir. Dashboard para monitorear. Historial para detectar problemas.

Empezar Ver en GitHub

Python 3.11+ Apache 2.0 Apple Silicon

asiai bench

asiai web

El problema de los LLM locales

¿Te suena?

🧩

Fragmentado

Ollama, LM Studio, mlx-lm — cada uno con su CLI, formatos y métricas. Sin terreno común.

🙈

A ciegas

Sin monitoreo VRAM en tiempo real, sin seguimiento de consumo, sin alertas térmicas. Vuelas a ciegas.

📋

Manual

Benchmarking significa scripts curl, copiar números y comparar en hojas de cálculo.

Construido para power users de Apple Silicon

Todo lo que necesitas para benchmark, monitoreo y optimización de inferencia local.

⚔️

Benchmarks cara a cara

Mismo modelo en Ollama vs LM Studio vs mlx-lm. Un comando, números reales.

⚡

Eficiencia energética

Mide el consumo GPU durante la inferencia. Conoce tus tok/s por vatio — nadie más lo hace.

🔧

5 motores, un CLI

Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Detección y configuración automática.

📦

Sin dependencias

Solo stdlib Python. Sin requests, sin psutil, sin rich. Se instala en segundos.

🌡️

Inteligencia térmica

Detecta throttling durante benchmarks. Alerta cuando tu Mac se sobrecalienta durante la inferencia.

📉

Detección de regresiones

Detecta caídas de rendimiento tras actualizaciones de OS o motor. Historial SQLite con retención de 90 días.

🌐

API REST

API JSON completa para automatización. /api/snapshot, /api/status, /api/metrics — integración con cualquier stack.

📈

Prometheus nativo

Endpoint /metrics integrado. Conecta Grafana, Datadog o cualquier herramienta compatible con Prometheus. Sin configuración.

¿Qué vas a descubrir?

Preguntas reales de r/LocalLLaMA, respondidas con un comando.

🏆

"¿Cuál motor es el más rápido?"

Comparación directa — la pregunta n°1 en r/LocalLLaMA.

🤖

"Monitorear un enjambre multi-agente"

LLMs ejecutándose 24/7 para agentes IA — monitorea VRAM, temperatura y rendimiento.

🔋

"Comparar eficiencia energética"

tok/s por vatio entre motores. Crítico para homelabs Mac Mini 24/7.

🚨

"Detectar regresiones tras actualizaciones"

¿La actualización de Ollama o macOS rompió tu rendimiento? Detección automática via SQLite.

📏

"Probar soporte de contexto largo"

Benchmarks --context-size 64k. Sobrevive tu modelo a 256k de contexto?

🔥

"¿Mi Mac tiene throttling térmico?"

Detección de deriva térmica entre ejecuciones. Único en asiai.

📊

"Benchmarks reproducibles"

Metodología MLPerf/SPEC. Warmup, mediana, decodificación greedy. Comparte con confianza.

🩺

"Diagnóstico en un comando"

asiai doctor diagnostica sistema, motores y base de datos con sugerencias de solución.

💻

"Dashboard visual"

Dashboard web dark/light con gráficos en vivo, progreso SSE y controles de benchmark.

🔄

"Comparar LLMs cara a cara"

Mismo motor, diferentes modelos. ¿Qué cuantización gana?

📡

"Monitoreo Prometheus + Grafana"

Expone /metrics, scrape con Prometheus, visualiza en Grafana. Observabilidad de nivel producción.

Funcionando en 60 segundos

Tres comandos. Eso es todo.

Instalar

brew install asiai

Detectar

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motores encontrados

Benchmark

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

Descubrimientos reales

Números de benchmarks reales en Apple Silicon.

2.3x

MLX vs llama.cpp

MLX es 2,3x más rápido para arquitecturas MoE (Qwen3.5-35B-A3B) en Apple Silicon.

Flat

VRAM: 64k → 256k

La VRAM se mantiene constante de 64k a 256k con DeltaNet — no documentado en ningún otro lugar.

30 vs 71

Motor > Modelo

Mismo modelo, mismo Mac: 30 tok/s en un motor, 71 tok/s en otro. El motor importa más.

Motores soportados

Detección automática, sin configuración.

Engine	Puerto por defecto	API	VRAM
Ollama	`11434`	Nativa	✔
LM Studio	`1234`	Compatible con OpenAI	—
mlx-lm	`8080`	Compatible con OpenAI	—
llama.cpp	`8080`	Compatible con OpenAI	—
vllm-mlx	`8000`	Compatible con OpenAI	—

Qué medimos

8 métricas, metodología consistente, cada ejecución.

🚀

tok/s

Velocidad de generación (tokens/seg)

⏱️

TTFT

Tiempo al primer token

⚡

Power (W)

Consumo GPU en vatios

🔋

tok/s/W

Eficiencia energética

📈

Stability

Varianza entre ejecuciones

💾

VRAM

Huella de memoria GPU

🌡️

Thermal

Estado de throttling

📏

Context

Escalado contexto largo

Empezar

Instalación en segundos. Sin dependencias.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub Documentación Metodología Apache 2.0

¿Cuál LLM? ¿Cuál motor?¿Qué combo gana en tu Mac?

El problema de los LLM locales

Fragmentado

A ciegas

Manual

Construido para power users de Apple Silicon

Benchmarks cara a cara

Eficiencia energética

5 motores, un CLI

Sin dependencias

Inteligencia térmica

Detección de regresiones

API REST

Prometheus nativo

¿Qué vas a descubrir?

"¿Cuál motor es el más rápido?"

"Monitorear un enjambre multi-agente"

"Comparar eficiencia energética"

"Detectar regresiones tras actualizaciones"

"Probar soporte de contexto largo"

"¿Mi Mac tiene throttling térmico?"

"Benchmarks reproducibles"

"Diagnóstico en un comando"

"Dashboard visual"

"Comparar LLMs cara a cara"

"Monitoreo Prometheus + Grafana"

Funcionando en 60 segundos

Instalar

Detectar

Benchmark

Descubrimientos reales

MLX vs llama.cpp

VRAM: 64k → 256k

Motor > Modelo

Motores soportados

Qué medimos

tok/s

TTFT

Power (W)

tok/s/W

Stability

VRAM

Thermal

Context

Empezar

Home

¿Cuál LLM? ¿Cuál motor?
¿Qué combo gana en tu Mac?