Vai al contenuto

LM Studio

LM Studio è il motore di inferenza MLX più veloce su Apple Silicon, servendo modelli sulla porta 1234 con un'API compatibile con OpenAI. Su M4 Pro 64GB, raggiunge 130 tok/s con Qwen3-Coder-30B (MLX), quasi 2x più veloce del backend llama.cpp di Ollama per i modelli MoE.

LM Studio fornisce un'API compatibile con OpenAI con una GUI per la gestione dei modelli.

Installazione

brew install --cask lm-studio

Avvia il server locale dall'app LM Studio, poi carica un modello.

Dettagli

Proprietà Valore
Porta predefinita 1234
Tipo API Compatibile con OpenAI
Report VRAM Sì (via CLI lms ps --json)
Formato modello GGUF, MLX
Rilevamento Endpoint /lms/version o plist del bundle dell'app

Report VRAM

Dalla v0.7.0, asiai recupera l'utilizzo VRAM dal CLI di LM Studio (~/.lmstudio/bin/lms ps --json). Questo fornisce dati accurati sulla dimensione del modello che l'API compatibile con OpenAI non espone.

Se il CLI lms non è installato o non è disponibile, asiai riporta la VRAM come 0 (stesso comportamento prima della v0.7.0).

Note

  • LM Studio supporta formati modello GGUF e MLX.
  • Il rilevamento della versione usa l'endpoint API /lms/version, con fallback al plist del bundle dell'app su disco.
  • I nomi dei modelli usano tipicamente il formato HuggingFace (es. gemma-2-9b-it).

Vedi anche

Guarda come si confronta LM Studio: Benchmark Ollama vs LM Studio