콘텐츠로 이동

llama.cpp

llama.cpp는 GGUF 모델용 기초적인 C++ 추론 엔진으로, 포트 8080에서 KV 캐시, 스레드 수, 컨텍스트 크기에 대한 최대한의 저수준 제어를 제공합니다. Ollama의 백엔드로 작동하지만, Apple Silicon에서 세밀한 튜닝을 위해 스탠드얼론으로 실행할 수도 있습니다.

llama.cpp는 GGUF 모델을 지원하는 고성능 C++ 추론 엔진입니다.

설정

brew install llama.cpp
llama-server -m model.gguf

세부 사항

속성
기본 포트 8080
API 유형 OpenAI 호환
VRAM 보고 없음
모델 포맷 GGUF
감지 /health + /props 엔드포인트 또는 lsof 프로세스 감지

참고 사항

  • llama.cpp는 mlx-lm과 포트 8080을 공유합니다. asiai는 /health/props 엔드포인트로 감지합니다.
  • 서버는 튜닝을 위해 커스텀 컨텍스트 크기와 스레드 수로 시작할 수 있습니다.

참고

asiai bench --engines llamacpp로 엔진을 비교하세요 --- 자세히 보기