Zum Inhalt

LM Studio

LM Studio ist die schnellste MLX-Inferenz-Engine auf Apple Silicon und bedient Modelle auf Port 1234 mit einer OpenAI-kompatiblen API. Auf M4 Pro 64 GB erreicht es 130 tok/s bei Qwen3-Coder-30B (MLX), fast 2x schneller als Ollamas llama.cpp-Backend für MoE-Modelle.

LM Studio bietet eine OpenAI-kompatible API mit einer GUI zur Modellverwaltung.

Installation

brew install --cask lm-studio

Starten Sie den lokalen Server aus der LM Studio App und laden Sie ein Modell.

Details

Eigenschaft Wert
Standardport 1234
API-Typ OpenAI-kompatibel
VRAM-Berichterstattung Ja (über lms ps --json CLI)
Modellformat GGUF, MLX
Erkennung /lms/version-Endpunkt oder App-Bundle-Plist

VRAM-Berichterstattung

Seit v0.7.0 ruft asiai die VRAM-Nutzung über das LM Studio CLI ab (~/.lmstudio/bin/lms ps --json). Dies liefert genaue Modellgrößendaten, die die OpenAI-kompatible API nicht bereitstellt.

Wenn das lms-CLI nicht installiert oder nicht verfügbar ist, fällt asiai elegant auf VRAM 0 zurück (gleiches Verhalten wie vor v0.7.0).

Hinweise

  • LM Studio unterstützt sowohl GGUF- als auch MLX-Modellformate.
  • Die Versionserkennung nutzt den /lms/version-API-Endpunkt, mit Fallback auf die App-Bundle-Plist auf der Festplatte.
  • Modellnamen verwenden typischerweise das HuggingFace-Format (z.B. gemma-2-9b-it).

Siehe auch

Sehen Sie, wie LM Studio abschneidet: Ollama vs LM Studio Benchmark