Ir para o conteúdo

LM Studio

LM Studio é o motor de inferência MLX mais rápido no Apple Silicon, servindo modelos na porta 1234 com API compatível com OpenAI. No M4 Pro 64GB, atinge 130 tok/s no Qwen3-Coder-30B (MLX), quase 2x mais rápido que o backend llama.cpp do Ollama para modelos MoE.

LM Studio fornece uma API compatível com OpenAI com interface gráfica para gerenciamento de modelos.

Configuração

brew install --cask lm-studio

Inicie o servidor local a partir do app LM Studio, depois carregue um modelo.

Detalhes

Propriedade Valor
Porta padrão 1234
Tipo de API Compatível com OpenAI
Reporte de VRAM Sim (via CLI lms ps --json)
Formato de modelo GGUF, MLX
Detecção Endpoint /lms/version ou plist do app bundle

Reporte de VRAM

Desde a v0.7.0, o asiai obtém o uso de VRAM do CLI do LM Studio (~/.lmstudio/bin/lms ps --json). Isso fornece dados precisos de tamanho de modelo que a API compatível com OpenAI não expõe.

Se o CLI lms não estiver instalado ou disponível, o asiai faz fallback gracioso reportando VRAM como 0 (mesmo comportamento de antes da v0.7.0).

Notas

  • O LM Studio suporta formatos de modelo GGUF e MLX.
  • A detecção de versão usa o endpoint /lms/version da API, com fallback para o plist do app bundle no disco.
  • Os nomes de modelos tipicamente usam o formato HuggingFace (ex: gemma-2-9b-it).

Veja também

Veja como o LM Studio se compara: Benchmark Ollama vs LM Studio