LM Studio

LM Studio è il motore di inferenza MLX più veloce su Apple Silicon, servendo modelli sulla porta 1234 con un'API compatibile con OpenAI. Su M4 Pro 64GB, raggiunge 130 tok/s con Qwen3-Coder-30B (MLX), quasi 2x più veloce del backend llama.cpp di Ollama per i modelli MoE.

LM Studio fornisce un'API compatibile con OpenAI con una GUI per la gestione dei modelli.

Installazione

brew install --cask lm-studio

Avvia il server locale dall'app LM Studio, poi carica un modello.

Dettagli

Proprietà	Valore
Porta predefinita	1234
Tipo API	Compatibile con OpenAI
Report VRAM	Sì (via CLI `lms ps --json`)
Formato modello	GGUF, MLX
Rilevamento	Endpoint `/lms/version` o plist del bundle dell'app

Report VRAM

Dalla v0.7.0, asiai recupera l'utilizzo VRAM dal CLI di LM Studio (~/.lmstudio/bin/lms ps --json). Questo fornisce dati accurati sulla dimensione del modello che l'API compatibile con OpenAI non espone.

Se il CLI lms non è installato o non è disponibile, asiai riporta la VRAM come 0 (stesso comportamento prima della v0.7.0).

Note

LM Studio supporta formati modello GGUF e MLX.
Il rilevamento della versione usa l'endpoint API /lms/version, con fallback al plist del bundle dell'app su disco.
I nomi dei modelli usano tipicamente il formato HuggingFace (es. gemma-2-9b-it).

Vedi anche

Guarda come si confronta LM Studio: Benchmark Ollama vs LM Studio