LM Studio
LM Studio é o motor de inferência MLX mais rápido no Apple Silicon, servindo modelos na porta 1234 com API compatível com OpenAI. No M4 Pro 64GB, atinge 130 tok/s no Qwen3-Coder-30B (MLX), quase 2x mais rápido que o backend llama.cpp do Ollama para modelos MoE.
LM Studio fornece uma API compatível com OpenAI com interface gráfica para gerenciamento de modelos.
Configuração
brew install --cask lm-studio
Inicie o servidor local a partir do app LM Studio, depois carregue um modelo.
Detalhes
| Propriedade | Valor |
|---|---|
| Porta padrão | 1234 |
| Tipo de API | Compatível com OpenAI |
| Reporte de VRAM | Sim (via CLI lms ps --json) |
| Formato de modelo | GGUF, MLX |
| Detecção | Endpoint /lms/version ou plist do app bundle |
Reporte de VRAM
Desde a v0.7.0, o asiai obtém o uso de VRAM do CLI do LM Studio (~/.lmstudio/bin/lms ps --json). Isso fornece dados precisos de tamanho de modelo que a API compatível com OpenAI não expõe.
Se o CLI lms não estiver instalado ou disponível, o asiai faz fallback gracioso reportando VRAM como 0 (mesmo comportamento de antes da v0.7.0).
Notas
- O LM Studio suporta formatos de modelo GGUF e MLX.
- A detecção de versão usa o endpoint
/lms/versionda API, com fallback para o plist do app bundle no disco. - Os nomes de modelos tipicamente usam o formato HuggingFace (ex:
gemma-2-9b-it).
Veja também
Veja como o LM Studio se compara: Benchmark Ollama vs LM Studio