asiai bench
asiai web
{
"chip": "Apple M4 Pro",
"ram_gb": 64.0,
"memory_pressure": "normal",
"gpu_utilization_percent": 45.2,
"engines": {
"ollama": { "running": true, "models_loaded": 2 },
"lmstudio": { "running": true, "models_loaded": 1 }
}
}
{
"system": {
"chip": "Apple M4 Pro",
"gpu_cores": 20,
"gpu_utilization_percent": 45.2,
"gpu_renderer_percent": 38.1,
"thermal_state": "nominal"
},
"engines": [{
"name": "ollama",
"models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
}]
}
心当たりありませんか?
Ollama、LM Studio、mlx-lm — それぞれ独自のCLI、フォーマット、指標。共通基盤なし。
リアルタイムVRAM監視なし、電力追跡なし、温度アラートなし。完全に盲目飛行。
ベンチマーク=curlスクリプト、数値のコピペ、スプレッドシートで比較。
ローカル推論のベンチマーク、監視、最適化に必要なすべて。
同じモデルをOllama vs LM Studio vs mlx-lmで比較。コマンド一発、実測値。
推論中のGPU消費電力を測定。tok/sあたりのワット数を把握 — 他にはない機能。
Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo。自動検出、自動設定。
Python標準ライブラリのみ。requests不要、psutil不要、rich不要。秒速インストール。
GPU使用率、レンダラー、タイラー、メモリをリアルタイム計測 — パッシブIOReportで。ライブゲージ、スパークライン、履歴チャート。Apple Silicon GPUをかつてない精度で可視化。
OSやエンジンの更新後にパフォーマンス低下を自動検出。SQLite履歴、90日保持。
自動化のための完全なJSON API。/api/snapshot、/api/status、/api/metrics — あらゆるスタックと統合。
組み込み/metricsエンドポイント。Grafana、Datadog、その他Prometheus互換ツールに接続。設定不要。
メモリ逼迫、サーマルスロットリング、エンジンダウン時にSlack、Discord、任意URLへPOST。状態遷移ベース — スパムなし。
ベンチマークを匿名で共有。コミュニティとMacを比較。同じチップでの他のユーザーの結果を確認。
"M4 Pro 64GBで、コード用:Qwen3.5-35B + mlx-lm、71 tok/s。" r/LocalLLaMAの#1質問にデータで回答。
Exoクラスターのベンチマーク。Mac Mini 2台 = Llama 3.3 70B。asiaiはスウォームを1台のマシンのように計測。
コマンド1つで共有可能な画像。asiai bench --cardを実行すると、モデル、チップ、エンジン比較、勝者が入った1200x630ダークテーマカードが生成。Reddit、X、Discordで共有。ローカルLLMのSpeedtest。
人間のために構築。AIエージェント対応。JSONエンドポイント、Prometheusメトリクス、診断デシジョンツリー、推論アクティビティシグナルを備えたREST API。AIエージェントにURLを渡して自己監視させましょう。
r/LocalLLaMAからのリアルな疑問に、コマンド一発で回答。
直接対決 — r/LocalLLaMAで最も多い質問。
AIエージェント用LLMを24時間稼働 — VRAM、温度、パフォーマンスを追跡。
エンジン間のワットあたりtok/s。24時間稼働のMac Miniホームラボに不可欠。
OllamaやmacOSのアップデートでパフォーマンスが低下?SQLiteで自動検出。
--context-size 64kベンチマーク。あなたのモデルは256kコンテキストに耐えられる?
ベンチマーク間のドリフト検出。asiai独自の機能。
MLPerf/SPEC準拠の方法論。ウォームアップ、中央値、greedy decoding。自信を持って共有。
asiai doctorがシステム、エンジン、データベースを診断し修正案を提示。
ダーク/ライト対応Webダッシュボード。ライブチャート、SSE進捗、ベンチマーク操作。
同じエンジン、異なるモデル。どの量子化が勝つ?
/metricsを公開、Prometheusでスクレイプ、Grafanaで可視化。本番品質の可観測性。
GPUアクティビティ、TCP接続、KVキャッシュ — エージェントが推論中か、アイドルか、過負荷かを把握。スウォームオーケストレーターに対応するAPI。
コマンド3つ。以上。
brew install asiai
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3つのエンジンを検出
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Apple Silicon上での実際のベンチマークデータ。
Apple SiliconでMoEアーキテクチャ(Qwen3.5-35B-A3B)にはMLXが2.3倍高速。
DeltaNetでは64kから256kコンテキストでもVRAMが一定 — 他のどこにも文書化されていない。
同じモデル、同じMac:一方のエンジンで30 tok/s、別のエンジンで71 tok/s。エンジンの方が重要。
8つの指標、一貫した方法論、毎回。
生成速度 (tokens/sec)
最初のトークンまでの時間
GPU消費電力(ワット)
エネルギー効率
実行間バラつき
GPUメモリ使用量
スロットリング状態
ロングコンテキスト性能スケーリング
秒速インストール。依存関係ゼロ。
brew tap druide67/tap
brew install asiai
pip install asiai