Saltar a contenido

Primeros pasos

Apple Silicon AI — CLI multi-motor de benchmark y monitoreo LLM.

asiai compara motores de inferencia lado a lado en tu Mac. Carga el mismo modelo en Ollama y LM Studio, ejecuta asiai bench y obtén los números. Sin suposiciones, sin vibraciones — solo tok/s, TTFT, eficiencia energética y estabilidad por motor.

Inicio rápido

brew tap druide67/tap
brew install asiai

O con pip:

pip install asiai

Luego detecta tus motores:

asiai detect

Y ejecuta un benchmark:

asiai bench -m qwen3.5 --runs 3 --power

Qué medimos

Métrica Descripción
tok/s Velocidad de generación (tokens/seg), excluyendo procesamiento de prompt
TTFT Time to first token — latencia de procesamiento del prompt
Power Consumo de GPU en vatios (sudo powermetrics)
tok/s/W Eficiencia energética — tokens por segundo por vatio
Stability Varianza entre ejecuciones: estable (<5%), variable (<10%), inestable (>10%)
VRAM Huella de memoria GPU (solo Ollama)
Thermal Estado de throttling de CPU y porcentaje de limitación

Motores soportados

Motor Puerto API
Ollama 11434 Nativa
LM Studio 1234 Compatible con OpenAI
mlx-lm 8080 Compatible con OpenAI
llama.cpp 8080 Compatible con OpenAI
vllm-mlx 8000 Compatible con OpenAI

Requisitos

  • macOS en Apple Silicon (M1 / M2 / M3 / M4)
  • Python 3.11+
  • Al menos un motor de inferencia ejecutándose localmente

Sin dependencias

El núcleo usa solo la biblioteca estándar de Python — urllib, sqlite3, subprocess, argparse. Sin requests, sin psutil, sin rich.

Extras opcionales:

  • asiai[tui] — Dashboard de terminal Textual
  • asiai[dev] — pytest, ruff, pytest-cov