벤치마크로 선택하고. 대시보드로 모니터링하고. 이력으로 문제를 발견하세요.asiai의 REST API로 AI 에이전트가 로컬 LLM 인프라를 자율적으로 모니터링, 진단, 최적화할 수 있습니다.
asiai bench
asiai web
{
"chip": "Apple M4 Pro",
"ram_gb": 64.0,
"memory_pressure": "normal",
"gpu_utilization_percent": 45.2,
"engines": {
"ollama": { "running": true, "models_loaded": 2 },
"lmstudio": { "running": true, "models_loaded": 1 }
}
}
{
"system": {
"chip": "Apple M4 Pro",
"gpu_cores": 20,
"gpu_utilization_percent": 45.2,
"gpu_renderer_percent": 38.1,
"thermal_state": "nominal"
},
"engines": [{
"name": "ollama",
"models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
}]
}
익숙하지 않으세요?
Ollama, LM Studio, mlx-lm — 각각 다른 CLI, 형식, 지표. 공통 기반 없음.
실시간 VRAM 모니터링 없음, 전력 추적 없음, 온도 알림 없음. 눈을 감고 날고 있는 셈.
벤치마크란 curl 스크립트, 숫자 복붙, 스프레드시트에서 비교하는 것.
로컬 추론의 벤치마크, 모니터링, 최적화에 필요한 모든 것.
같은 모델을 Ollama vs LM Studio vs mlx-lm에서 비교. 명령어 하나, 실측 수치.
추론 중 GPU 소비전력 측정. 와트당 tok/s를 파악 — 다른 도구에는 없는 기능.
Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. 자동 감지, 자동 설정.
Python 표준 라이브러리만 사용. requests, psutil, rich 불필요. 초 단위 설치.
실시간 GPU 사용률, 렌더러, 타일러, 메모리 — 패시브 IOReport 방식. 라이브 게이지, 스파크라인, 히스토리 차트. Apple Silicon GPU를 전례 없는 수준으로 확인.
OS 또는 엔진 업데이트 후 성능 저하 자동 감지. SQLite 이력, 90일 보존.
자동화를 위한 완전한 JSON API. /api/snapshot, /api/status, /api/metrics — 모든 스택과 통합.
내장 /metrics 엔드포인트. Grafana, Datadog 또는 Prometheus 호환 도구에 연결. 설정 불필요.
메모리 압력, 서멀 스로틀링, 엔진 다운 시 Slack, Discord 또는 모든 URL로 POST. 상태 전환 기반 — 스팸 없음.
벤치마크를 익명으로 공유. 커뮤니티와 Mac 비교. 같은 칩에서 다른 사용자의 결과 확인.
"M4 Pro 64GB에서 코드용: Qwen3.5-35B + mlx-lm, 71 tok/s." r/LocalLLaMA의 #1 질문에 데이터로 답변.
Exo 클러스터 벤치마크. Mac Mini 2대 = Llama 3.3 70B. asiai는 스웜을 단일 머신처럼 측정.
명령어 하나, 공유 가능한 이미지. asiai bench --card를 실행하면 모델, 칩, 엔진 비교, 우승자가 담긴 1200x630 다크 테마 카드 생성. Reddit, X, Discord에 게시. 로컬 LLM의 Speedtest.
사람을 위해 만들어졌습니다. AI 에이전트 대응. JSON 엔드포인트, Prometheus 메트릭, 진단 의사결정 트리, 추론 활동 신호를 갖춘 REST API. AI 에이전트에게 URL을 주고 자가 모니터링하게 하세요.
r/LocalLLaMA의 실제 질문, 명령어 하나로 해결.
1:1 비교 — r/LocalLLaMA에서 가장 많은 질문.
AI 에이전트용 LLM 24시간 가동 — VRAM, 온도, 성능 추적.
엔진 간 와트당 tok/s. 24시간 Mac Mini 홈랩에 필수.
Ollama 또는 macOS 업데이트로 성능이 떨어졌나요? SQLite로 자동 감지.
--context-size 64k 벤치마크. 당신의 모델이 256k 컨텍스트를 견딜 수 있을까?
벤치마크 실행 간 드리프트 감지. asiai만의 고유 기능.
MLPerf/SPEC 방법론. 워밍업, 중앙값, greedy decoding. 자신있게 공유.
asiai doctor가 시스템, 엔진, 데이터베이스를 진단하고 수정 제안.
다크/라이트 웹 대시보드. 실시간 차트, SSE 진행률, 벤치마크 컨트롤.
같은 엔진, 다른 모델. 어떤 양자화가 이길까?
/metrics 노출, Prometheus로 스크레이프, Grafana에서 시각화. 프로덕션 수준 관측성.
GPU 활동, TCP 연결, KV 캐시 — 에이전트가 추론 중인지, 유휴 상태인지, 과부하인지 파악. 스웜 오케스트레이터용 API 지원.
명령어 세 개. 끝.
brew install asiai
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 엔진 3개 발견
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Apple Silicon에서의 실제 벤치마크 수치.
Apple Silicon에서 MoE 아키텍처(Qwen3.5-35B-A3B)에 MLX가 2.3배 빠름.
DeltaNet 사용 시 64k에서 256k 컨텍스트까지 VRAM 일정 — 다른 곳에서는 문서화되지 않음.
같은 모델, 같은 Mac: 한 엔진에서 30 tok/s, 다른 엔진에서 71 tok/s. 엔진이 더 중요.
8개 지표, 일관된 방법론, 매 실행마다.
생성 속도 (tokens/sec)
첫 토큰까지 시간
GPU 전력 소비 (와트)
에너지 효율
실행 간 분산
GPU 메모리 사용량
스로틀링 상태
긴 컨텍스트 성능 스케일링
초 단위 설치. 의존성 제로.
brew tap druide67/tap
brew install asiai
pip install asiai