LM Studio

LM Studio ist die schnellste MLX-Inferenz-Engine auf Apple Silicon und bedient Modelle auf Port 1234 mit einer OpenAI-kompatiblen API. Auf M4 Pro 64 GB erreicht es 130 tok/s bei Qwen3-Coder-30B (MLX), fast 2x schneller als Ollamas llama.cpp-Backend für MoE-Modelle.

LM Studio bietet eine OpenAI-kompatible API mit einer GUI zur Modellverwaltung.

Installation

brew install --cask lm-studio

Starten Sie den lokalen Server aus der LM Studio App und laden Sie ein Modell.

Details

Eigenschaft	Wert
Standardport	1234
API-Typ	OpenAI-kompatibel
VRAM-Berichterstattung	Ja (über `lms ps --json` CLI)
Modellformat	GGUF, MLX
Erkennung	`/lms/version`-Endpunkt oder App-Bundle-Plist

VRAM-Berichterstattung

Seit v0.7.0 ruft asiai die VRAM-Nutzung über das LM Studio CLI ab (~/.lmstudio/bin/lms ps --json). Dies liefert genaue Modellgrößendaten, die die OpenAI-kompatible API nicht bereitstellt.

Wenn das lms-CLI nicht installiert oder nicht verfügbar ist, fällt asiai elegant auf VRAM 0 zurück (gleiches Verhalten wie vor v0.7.0).

Hinweise

LM Studio unterstützt sowohl GGUF- als auch MLX-Modellformate.
Die Versionserkennung nutzt den /lms/version-API-Endpunkt, mit Fallback auf die App-Bundle-Plist auf der Festplatte.
Modellnamen verwenden typischerweise das HuggingFace-Format (z.B. gemma-2-9b-it).

Siehe auch

Sehen Sie, wie LM Studio abschneidet: Ollama vs LM Studio Benchmark