Saltar a contenido

LM Studio

LM Studio es el motor de inferencia MLX más rápido en Apple Silicon, sirviendo modelos en el puerto 1234 con una API compatible con OpenAI. En M4 Pro 64GB, alcanza 130 tok/s con Qwen3-Coder-30B (MLX), casi 2x más rápido que el backend llama.cpp de Ollama para modelos MoE.

LM Studio proporciona una API compatible con OpenAI con una interfaz gráfica para gestión de modelos.

Instalación

brew install --cask lm-studio

Inicia el servidor local desde la app LM Studio, luego carga un modelo.

Detalles

Propiedad Valor
Puerto por defecto 1234
Tipo de API Compatible con OpenAI
Reporte de VRAM Sí (vía CLI lms ps --json)
Formato de modelo GGUF, MLX
Detección Endpoint /lms/version o plist del bundle de la app

Reporte de VRAM

Desde v0.7.0, asiai obtiene el uso de VRAM del CLI de LM Studio (~/.lmstudio/bin/lms ps --json). Esto proporciona datos precisos del tamaño del modelo que la API compatible con OpenAI no expone.

Si el CLI lms no está instalado o no está disponible, asiai reporta la VRAM como 0 (mismo comportamiento que antes de v0.7.0).

Notas

  • LM Studio soporta formatos de modelo GGUF y MLX.
  • La detección de versión usa el endpoint API /lms/version, con respaldo al plist del bundle de la app en disco.
  • Los nombres de modelos típicamente usan el formato HuggingFace (ej. gemma-2-9b-it).

Ver también

Mira cómo se compara LM Studio: Benchmark Ollama vs LM Studio