Primeros pasos
Apple Silicon AI — CLI multi-motor de benchmark y monitoreo LLM.
asiai compara motores de inferencia lado a lado en tu Mac. Carga el mismo modelo en Ollama y LM Studio, ejecuta asiai bench y obtén los números. Sin suposiciones, sin vibraciones — solo tok/s, TTFT, eficiencia energética y estabilidad por motor.
Inicio rápido
brew tap druide67/tap
brew install asiai
O con pip:
pip install asiai
Luego detecta tus motores:
asiai detect
Y ejecuta un benchmark:
asiai bench -m qwen3.5 --runs 3 --power
Qué medimos
| Métrica | Descripción |
|---|---|
| tok/s | Velocidad de generación (tokens/seg), excluyendo procesamiento de prompt |
| TTFT | Time to first token — latencia de procesamiento del prompt |
| Power | Consumo de GPU en vatios (sudo powermetrics) |
| tok/s/W | Eficiencia energética — tokens por segundo por vatio |
| Stability | Varianza entre ejecuciones: estable (<5%), variable (<10%), inestable (>10%) |
| VRAM | Huella de memoria GPU (solo Ollama) |
| Thermal | Estado de throttling de CPU y porcentaje de limitación |
Motores soportados
| Motor | Puerto | API |
|---|---|---|
| Ollama | 11434 | Nativa |
| LM Studio | 1234 | Compatible con OpenAI |
| mlx-lm | 8080 | Compatible con OpenAI |
| llama.cpp | 8080 | Compatible con OpenAI |
| vllm-mlx | 8000 | Compatible con OpenAI |
Requisitos
- macOS en Apple Silicon (M1 / M2 / M3 / M4)
- Python 3.11+
- Al menos un motor de inferencia ejecutándose localmente
Sin dependencias
El núcleo usa solo la biblioteca estándar de Python — urllib, sqlite3, subprocess, argparse. Sin requests, sin psutil, sin rich.
Extras opcionales:
asiai[tui]— Dashboard de terminal Textualasiai[dev]— pytest, ruff, pytest-cov