Ir para o conteúdo

Primeiros passos

Apple Silicon AI — CLI multi-motor de benchmark e monitoramento LLM.

asiai compara motores de inferência lado a lado no seu Mac. Carregue o mesmo modelo no Ollama e LM Studio, execute asiai bench e obtenha os números. Sem suposições, sem achismos — apenas tok/s, TTFT, eficiência energética e estabilidade por motor.

Início rápido

brew tap druide67/tap
brew install asiai

Ou com pip:

pip install asiai

Depois detecte seus motores:

asiai detect

E execute um benchmark:

asiai bench -m qwen3.5 --runs 3 --power

O que medimos

Métrica Descrição
tok/s Velocidade de geração (tokens/seg), excluindo processamento de prompt
TTFT Time to first token — latência de processamento do prompt
Power Consumo de GPU em watts (sudo powermetrics)
tok/s/W Eficiência energética — tokens por segundo por watt
Stability Variância entre execuções: estável (<5%), variável (<10%), instável (>10%)
VRAM Footprint de memória GPU (apenas Ollama)
Thermal Estado de throttling da CPU e percentual de limitação

Motores suportados

Motor Porta API
Ollama 11434 Nativa
LM Studio 1234 Compatível com OpenAI
mlx-lm 8080 Compatível com OpenAI
llama.cpp 8080 Compatível com OpenAI
vllm-mlx 8000 Compatível com OpenAI

Requisitos

  • macOS em Apple Silicon (M1 / M2 / M3 / M4)
  • Python 3.11+
  • Pelo menos um motor de inferência rodando localmente

Zero dependências

O core usa apenas a biblioteca padrão do Python — urllib, sqlite3, subprocess, argparse. Sem requests, sem psutil, sem rich.

Extras opcionais:

  • asiai[tui] — Dashboard de terminal Textual
  • asiai[dev] — pytest, ruff, pytest-cov