llama.cpp
llama.cpp는 GGUF 모델용 기초적인 C++ 추론 엔진으로, 포트 8080에서 KV 캐시, 스레드 수, 컨텍스트 크기에 대한 최대한의 저수준 제어를 제공합니다. Ollama의 백엔드로 작동하지만, Apple Silicon에서 세밀한 튜닝을 위해 스탠드얼론으로 실행할 수도 있습니다.
llama.cpp는 GGUF 모델을 지원하는 고성능 C++ 추론 엔진입니다.
설정
brew install llama.cpp
llama-server -m model.gguf
세부 사항
| 속성 | 값 |
|---|---|
| 기본 포트 | 8080 |
| API 유형 | OpenAI 호환 |
| VRAM 보고 | 없음 |
| 모델 포맷 | GGUF |
| 감지 | /health + /props 엔드포인트 또는 lsof 프로세스 감지 |
참고 사항
- llama.cpp는 mlx-lm과 포트 8080을 공유합니다. asiai는
/health와/props엔드포인트로 감지합니다. - 서버는 튜닝을 위해 커스텀 컨텍스트 크기와 스레드 수로 시작할 수 있습니다.
참고
asiai bench --engines llamacpp로 엔진을 비교하세요 --- 자세히 보기