Benchmark para escolher. Dashboard para monitorar. Histórico para detectar problemas.
asiai bench
asiai web
Parece familiar?
Ollama, LM Studio, mlx-lm — cada um com seu CLI, formatos e métricas. Nenhum terreno comum.
Sem monitoramento VRAM em tempo real, sem rastreamento de energia, sem alertas térmicos. Você voa às cegas.
Benchmark significa scripts curl, copiar números e comparar em planilhas.
Tudo que você precisa para benchmark, monitoramento e otimização de inferência local.
Mesmo modelo no Ollama vs LM Studio vs mlx-lm. Um comando, números reais.
Meça a potência da GPU durante a inferência. Conheça seus tok/s por watt — ninguém mais faz isso.
Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Detecção e configuração automáticas.
Apenas stdlib Python. Sem requests, sem psutil, sem rich. Instala em segundos.
Detecta throttling durante benchmarks. Alerta quando seu Mac superaquece durante a inferência.
Detecta quedas de desempenho após atualizações de OS ou motor. Histórico SQLite com retenção de 90 dias.
API JSON completa para automação. /api/snapshot, /api/status, /api/metrics — integração com qualquer stack.
Endpoint /metrics integrado. Conecte Grafana, Datadog ou qualquer ferramenta compatível com Prometheus. Zero configuração.
Perguntas reais do r/LocalLLaMA, respondidas com um comando.
Comparação direta — a pergunta n°1 no r/LocalLLaMA.
LLMs rodando 24/7 para agentes IA — acompanhe VRAM, temperatura e desempenho.
tok/s por watt entre motores. Crítico para homelabs Mac Mini 24/7.
A atualização do Ollama ou macOS quebrou seu desempenho? Detecção automática via SQLite.
Benchmarks --context-size 64k. Seu modelo sobrevive a 256k de contexto?
Detecção de deriva térmica entre execuções. Único no asiai.
Metodologia MLPerf/SPEC. Warmup, mediana, decodificação greedy. Compartilhe com confiança.
asiai doctor diagnostica sistema, motores e banco de dados com sugestões de correção.
Dashboard web dark/light com gráficos ao vivo, progresso SSE e controles de benchmark.
Mesmo motor, modelos diferentes. Qual quantização ganha?
Exponha /metrics, scrape com Prometheus, visualize no Grafana. Observabilidade de nível produção.
Três comandos. Só isso.
brew install asiai
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motores encontrados
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Números de benchmarks reais em Apple Silicon.
MLX é 2,3x mais rápido para arquiteturas MoE (Qwen3.5-35B-A3B) em Apple Silicon.
A VRAM permanece constante de 64k a 256k de contexto com DeltaNet — não documentado em nenhum outro lugar.
Mesmo modelo, mesmo Mac: 30 tok/s em um motor, 71 tok/s em outro. O motor importa mais.
8 métricas, metodologia consistente, cada execução.
Velocidade de geração (tokens/seg)
Tempo ao primeiro token
Consumo GPU em watts
Eficiência energética
Variância entre execuções
Pegada de memória GPU
Estado de throttling
Escala contexto longo
Instalação em segundos. Zero dependências.
brew tap druide67/tap
brew install asiai
pip install asiai