LM Studio
LM Studio는 Apple Silicon에서 가장 빠른 MLX 추론 엔진으로, 포트 1234에서 OpenAI 호환 API로 모델을 제공합니다. M4 Pro 64GB에서 Qwen3-Coder-30B(MLX)로 130 tok/s에 도달하며, MoE 모델에서 Ollama의 llama.cpp 백엔드보다 거의 2배 빠릅니다.
LM Studio는 모델 관리용 GUI와 함께 OpenAI 호환 API를 제공합니다.
설정
brew install --cask lm-studio
LM Studio 앱에서 로컬 서버를 시작하고 모델을 로드하세요.
세부 사항
| 속성 | 값 |
|---|---|
| 기본 포트 | 1234 |
| API 유형 | OpenAI 호환 |
| VRAM 보고 | 예 (lms ps --json CLI 경유) |
| 모델 포맷 | GGUF, MLX |
| 감지 | /lms/version 엔드포인트 또는 앱 번들 plist |
VRAM 보고
v0.7.0부터 asiai는 LM Studio CLI(~/.lmstudio/bin/lms ps --json)에서 VRAM 사용량을 가져옵니다. OpenAI 호환 API가 노출하지 않는 정확한 모델 크기 데이터를 제공합니다.
lms CLI가 설치되지 않았거나 사용할 수 없으면, asiai는 VRAM을 0으로 보고하는 폴백 동작(v0.7.0 이전과 동일)으로 전환합니다.
참고 사항
- LM Studio는 GGUF와 MLX 모델 포맷을 모두 지원합니다.
- 버전 감지는
/lms/versionAPI 엔드포인트를 사용하며, 폴백으로 디스크의 앱 번들 plist를 사용합니다. - 모델 이름은 일반적으로 HuggingFace 형식(예:
gemma-2-9b-it)을 사용합니다.
참고
LM Studio 비교 보기: Ollama vs LM Studio 벤치마크