asiai logo

Qual LLM? Qual motor?
Qual combo vence no seu Mac?

Benchmark para escolher. Dashboard para monitorar. Histórico para detectar problemas.

Python 3.11+ Apache 2.0 Apple Silicon
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

O problema dos LLMs locais

Parece familiar?

🧩

Fragmentado

Ollama, LM Studio, mlx-lm — cada um com seu CLI, formatos e métricas. Nenhum terreno comum.

🙈

Às cegas

Sem monitoramento VRAM em tempo real, sem rastreamento de energia, sem alertas térmicos. Você voa às cegas.

📋

Manual

Benchmark significa scripts curl, copiar números e comparar em planilhas.

Feito para power users Apple Silicon

Tudo que você precisa para benchmark, monitoramento e otimização de inferência local.

⚔️

Benchmarks frente a frente

Mesmo modelo no Ollama vs LM Studio vs mlx-lm. Um comando, números reais.

Eficiência energética

Meça a potência da GPU durante a inferência. Conheça seus tok/s por watt — ninguém mais faz isso.

🔧

5 motores, um CLI

Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Detecção e configuração automáticas.

📦

Zero dependências

Apenas stdlib Python. Sem requests, sem psutil, sem rich. Instala em segundos.

🌡️

Inteligência térmica

Detecta throttling durante benchmarks. Alerta quando seu Mac superaquece durante a inferência.

📉

Detecção de regressões

Detecta quedas de desempenho após atualizações de OS ou motor. Histórico SQLite com retenção de 90 dias.

🌐

API REST

API JSON completa para automação. /api/snapshot, /api/status, /api/metrics — integração com qualquer stack.

📈

Prometheus nativo

Endpoint /metrics integrado. Conecte Grafana, Datadog ou qualquer ferramenta compatível com Prometheus. Zero configuração.

O que você vai descobrir?

Perguntas reais do r/LocalLLaMA, respondidas com um comando.

🏆

"Qual motor é o mais rápido?"

Comparação direta — a pergunta n°1 no r/LocalLLaMA.

🤖

"Monitorar um enxame multi-agente"

LLMs rodando 24/7 para agentes IA — acompanhe VRAM, temperatura e desempenho.

🔋

"Comparar eficiência energética"

tok/s por watt entre motores. Crítico para homelabs Mac Mini 24/7.

🚨

"Detectar regressões após atualizações"

A atualização do Ollama ou macOS quebrou seu desempenho? Detecção automática via SQLite.

📏

"Testar suporte a contexto longo"

Benchmarks --context-size 64k. Seu modelo sobrevive a 256k de contexto?

🔥

"Meu Mac está com throttling térmico?"

Detecção de deriva térmica entre execuções. Único no asiai.

📊

"Benchmarks reprodutíveis"

Metodologia MLPerf/SPEC. Warmup, mediana, decodificação greedy. Compartilhe com confiança.

🩺

"Diagnóstico em um comando"

asiai doctor diagnostica sistema, motores e banco de dados com sugestões de correção.

💻

"Dashboard visual"

Dashboard web dark/light com gráficos ao vivo, progresso SSE e controles de benchmark.

🔄

"Comparar LLMs frente a frente"

Mesmo motor, modelos diferentes. Qual quantização ganha?

📡

"Monitoramento Prometheus + Grafana"

Exponha /metrics, scrape com Prometheus, visualize no Grafana. Observabilidade de nível produção.

Funcionando em 60 segundos

Três comandos. Só isso.

1

Instalar

brew install asiai
2

Detectar

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3 motores encontrados
3

Benchmark

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

Descobertas reais

Números de benchmarks reais em Apple Silicon.

2.3x

MLX vs llama.cpp

MLX é 2,3x mais rápido para arquiteturas MoE (Qwen3.5-35B-A3B) em Apple Silicon.

Flat

VRAM: 64k → 256k

A VRAM permanece constante de 64k a 256k de contexto com DeltaNet — não documentado em nenhum outro lugar.

30 vs 71

Motor > Modelo

Mesmo modelo, mesmo Mac: 30 tok/s em um motor, 71 tok/s em outro. O motor importa mais.

Motores suportados

Detecção automática, zero configuração.

Engine Porta padrão API VRAM
Ollama 11434 Nativa
LM Studio 1234 Compatível com OpenAI
mlx-lm 8080 Compatível com OpenAI
llama.cpp 8080 Compatível com OpenAI
vllm-mlx 8000 Compatível com OpenAI

O que medimos

8 métricas, metodologia consistente, cada execução.

🚀

tok/s

Velocidade de geração (tokens/seg)

⏱️

TTFT

Tempo ao primeiro token

Power (W)

Consumo GPU em watts

🔋

tok/s/W

Eficiência energética

📈

Stability

Variância entre execuções

💾

VRAM

Pegada de memória GPU

🌡️

Thermal

Estado de throttling

📏

Context

Escala contexto longo

Começar

Instalação em segundos. Zero dependências.

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

Home