Primeiros passos
Apple Silicon AI — CLI multi-motor de benchmark e monitoramento LLM.
asiai compara motores de inferência lado a lado no seu Mac. Carregue o mesmo modelo no Ollama e LM Studio, execute asiai bench e obtenha os números. Sem suposições, sem achismos — apenas tok/s, TTFT, eficiência energética e estabilidade por motor.
Início rápido
brew tap druide67/tap
brew install asiai
Ou com pip:
pip install asiai
Depois detecte seus motores:
asiai detect
E execute um benchmark:
asiai bench -m qwen3.5 --runs 3 --power
O que medimos
| Métrica | Descrição |
|---|---|
| tok/s | Velocidade de geração (tokens/seg), excluindo processamento de prompt |
| TTFT | Time to first token — latência de processamento do prompt |
| Power | Consumo de GPU em watts (sudo powermetrics) |
| tok/s/W | Eficiência energética — tokens por segundo por watt |
| Stability | Variância entre execuções: estável (<5%), variável (<10%), instável (>10%) |
| VRAM | Footprint de memória GPU (apenas Ollama) |
| Thermal | Estado de throttling da CPU e percentual de limitação |
Motores suportados
| Motor | Porta | API |
|---|---|---|
| Ollama | 11434 | Nativa |
| LM Studio | 1234 | Compatível com OpenAI |
| mlx-lm | 8080 | Compatível com OpenAI |
| llama.cpp | 8080 | Compatível com OpenAI |
| vllm-mlx | 8000 | Compatível com OpenAI |
Requisitos
- macOS em Apple Silicon (M1 / M2 / M3 / M4)
- Python 3.11+
- Pelo menos um motor de inferência rodando localmente
Zero dependências
O core usa apenas a biblioteca padrão do Python — urllib, sqlite3, subprocess, argparse. Sem requests, sem psutil, sem rich.
Extras opcionais:
asiai[tui]— Dashboard de terminal Textualasiai[dev]— pytest, ruff, pytest-cov