LM Studio
LM Studio es el motor de inferencia MLX más rápido en Apple Silicon, sirviendo modelos en el puerto 1234 con una API compatible con OpenAI. En M4 Pro 64GB, alcanza 130 tok/s con Qwen3-Coder-30B (MLX), casi 2x más rápido que el backend llama.cpp de Ollama para modelos MoE.
LM Studio proporciona una API compatible con OpenAI con una interfaz gráfica para gestión de modelos.
Instalación
brew install --cask lm-studio
Inicia el servidor local desde la app LM Studio, luego carga un modelo.
Detalles
| Propiedad | Valor |
|---|---|
| Puerto por defecto | 1234 |
| Tipo de API | Compatible con OpenAI |
| Reporte de VRAM | Sí (vía CLI lms ps --json) |
| Formato de modelo | GGUF, MLX |
| Detección | Endpoint /lms/version o plist del bundle de la app |
Reporte de VRAM
Desde v0.7.0, asiai obtiene el uso de VRAM del CLI de LM Studio (~/.lmstudio/bin/lms ps --json). Esto proporciona datos precisos del tamaño del modelo que la API compatible con OpenAI no expone.
Si el CLI lms no está instalado o no está disponible, asiai reporta la VRAM como 0 (mismo comportamiento que antes de v0.7.0).
Notas
- LM Studio soporta formatos de modelo GGUF y MLX.
- La detección de versión usa el endpoint API
/lms/version, con respaldo al plist del bundle de la app en disco. - Los nombres de modelos típicamente usan el formato HuggingFace (ej.
gemma-2-9b-it).
Ver también
Mira cómo se compara LM Studio: Benchmark Ollama vs LM Studio