Qual LLM? Qual motor?
Qual combo vence no seu Mac?

Benchmark para escolher. Dashboard para monitorar. Histórico para detectar problemas.

Começar Ver no GitHub

Python 3.11+ Apache 2.0 Apple Silicon

asiai bench

asiai web

O problema dos LLMs locais

Parece familiar?

🧩

Fragmentado

Ollama, LM Studio, mlx-lm — cada um com seu CLI, formatos e métricas. Nenhum terreno comum.

🙈

Às cegas

Sem monitoramento VRAM em tempo real, sem rastreamento de energia, sem alertas térmicos. Você voa às cegas.

📋

Manual

Benchmark significa scripts curl, copiar números e comparar em planilhas.

Feito para power users Apple Silicon

Tudo que você precisa para benchmark, monitoramento e otimização de inferência local.

⚔️

Benchmarks frente a frente

Mesmo modelo no Ollama vs LM Studio vs mlx-lm. Um comando, números reais.

⚡

Eficiência energética

Meça a potência da GPU durante a inferência. Conheça seus tok/s por watt — ninguém mais faz isso.

🔧

5 motores, um CLI

Ollama, LM Studio, mlx-lm, llama.cpp, vllm-mlx. Detecção e configuração automáticas.

📦

Zero dependências

Apenas stdlib Python. Sem requests, sem psutil, sem rich. Instala em segundos.

🌡️

Inteligência térmica

Detecta throttling durante benchmarks. Alerta quando seu Mac superaquece durante a inferência.

📉

Detecção de regressões

Detecta quedas de desempenho após atualizações de OS ou motor. Histórico SQLite com retenção de 90 dias.

🌐

API REST

API JSON completa para automação. /api/snapshot, /api/status, /api/metrics — integração com qualquer stack.

📈

Prometheus nativo

Endpoint /metrics integrado. Conecte Grafana, Datadog ou qualquer ferramenta compatível com Prometheus. Zero configuração.

O que você vai descobrir?

Perguntas reais do r/LocalLLaMA, respondidas com um comando.

🏆

"Qual motor é o mais rápido?"

Comparação direta — a pergunta n°1 no r/LocalLLaMA.

🤖

"Monitorar um enxame multi-agente"

LLMs rodando 24/7 para agentes IA — acompanhe VRAM, temperatura e desempenho.

🔋

"Comparar eficiência energética"

tok/s por watt entre motores. Crítico para homelabs Mac Mini 24/7.

🚨

"Detectar regressões após atualizações"

A atualização do Ollama ou macOS quebrou seu desempenho? Detecção automática via SQLite.

📏

"Testar suporte a contexto longo"

Benchmarks --context-size 64k. Seu modelo sobrevive a 256k de contexto?

🔥

"Meu Mac está com throttling térmico?"

Detecção de deriva térmica entre execuções. Único no asiai.

📊

"Benchmarks reprodutíveis"

Metodologia MLPerf/SPEC. Warmup, mediana, decodificação greedy. Compartilhe com confiança.

🩺

"Diagnóstico em um comando"

asiai doctor diagnostica sistema, motores e banco de dados com sugestões de correção.

💻

"Dashboard visual"

Dashboard web dark/light com gráficos ao vivo, progresso SSE e controles de benchmark.

🔄

"Comparar LLMs frente a frente"

Mesmo motor, modelos diferentes. Qual quantização ganha?

📡

"Monitoramento Prometheus + Grafana"

Exponha /metrics, scrape com Prometheus, visualize no Grafana. Observabilidade de nível produção.

Funcionando em 60 segundos

Três comandos. Só isso.

Instalar

brew install asiai

Detectar

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motores encontrados

Benchmark

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

Descobertas reais

Números de benchmarks reais em Apple Silicon.

2.3x

MLX vs llama.cpp

MLX é 2,3x mais rápido para arquiteturas MoE (Qwen3.5-35B-A3B) em Apple Silicon.

Flat

VRAM: 64k → 256k

A VRAM permanece constante de 64k a 256k de contexto com DeltaNet — não documentado em nenhum outro lugar.

30 vs 71

Motor > Modelo

Mesmo modelo, mesmo Mac: 30 tok/s em um motor, 71 tok/s em outro. O motor importa mais.

Motores suportados

Detecção automática, zero configuração.

Engine	Porta padrão	API	VRAM
Ollama	`11434`	Nativa	✔
LM Studio	`1234`	Compatível com OpenAI	—
mlx-lm	`8080`	Compatível com OpenAI	—
llama.cpp	`8080`	Compatível com OpenAI	—
vllm-mlx	`8000`	Compatível com OpenAI	—

O que medimos

8 métricas, metodologia consistente, cada execução.

🚀

tok/s

Velocidade de geração (tokens/seg)

⏱️

TTFT

Tempo ao primeiro token

⚡

Power (W)

Consumo GPU em watts

🔋

tok/s/W

Eficiência energética

📈

Stability

Variância entre execuções

💾

VRAM

Pegada de memória GPU

🌡️

Thermal

Estado de throttling

📏

Context

Escala contexto longo

Começar

Instalação em segundos. Zero dependências.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub Documentação Metodologia Apache 2.0

Qual LLM? Qual motor?Qual combo vence no seu Mac?

O problema dos LLMs locais

Fragmentado

Às cegas

Manual

Feito para power users Apple Silicon

Benchmarks frente a frente

Eficiência energética

5 motores, um CLI

Zero dependências

Inteligência térmica

Detecção de regressões

API REST

Prometheus nativo

O que você vai descobrir?

"Qual motor é o mais rápido?"

"Monitorar um enxame multi-agente"

"Comparar eficiência energética"

"Detectar regressões após atualizações"

"Testar suporte a contexto longo"

"Meu Mac está com throttling térmico?"

"Benchmarks reprodutíveis"

"Diagnóstico em um comando"

"Dashboard visual"

"Comparar LLMs frente a frente"

"Monitoramento Prometheus + Grafana"

Funcionando em 60 segundos

Instalar

Detectar

Benchmark

Descobertas reais

MLX vs llama.cpp

VRAM: 64k → 256k

Motor > Modelo

Motores suportados

O que medimos

tok/s

TTFT

Power (W)

tok/s/W

Stability

VRAM

Thermal

Context

Começar

Home

Qual LLM? Qual motor?
Qual combo vence no seu Mac?