どのLLM？どのエンジン？
あなたのMacで最強の組み合わせは？AIエージェントに
推論の可視性を

ベンチマークで選ぶ。ダッシュボードで監視。履歴で問題を発見。asiaiのREST APIにより、AIエージェントがローカルLLMインフラを自律的に監視・診断・最適化できます。

🧑 ヒューマン AIエージェント 🤖

始めるランキング GitHubで見るエージェントガイド APIリファレンスこのURLをAIに渡す

Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready

asiai bench

asiai web

GET /api/status ≤ 500ms

{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}

GET /api/snapshot Full state

{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

ローカルLLMの課題

心当たりありませんか？

🧩

断片化

Ollama、LM Studio、mlx-lm — それぞれ独自のCLI、フォーマット、指標。共通基盤なし。

🙈

盲目

リアルタイムVRAM監視なし、電力追跡なし、温度アラートなし。完全に盲目飛行。

📋

手動

ベンチマーク＝curlスクリプト、数値のコピペ、スプレッドシートで比較。

Apple Siliconパワーユーザーのために設計

ローカル推論のベンチマーク、監視、最適化に必要なすべて。

⚔️

ヘッドツーヘッド・ベンチマーク

同じモデルをOllama vs LM Studio vs mlx-lmで比較。コマンド一発、実測値。

⚡

エネルギー効率

推論中のGPU消費電力を測定。tok/sあたりのワット数を把握 — 他にはない機能。

🔧

7エンジン、1つのCLI

Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo。自動検出、自動設定。

📦

依存関係ゼロ

Python標準ライブラリのみ。requests不要、psutil不要、rich不要。秒速インストール。

🔍

GPUオブザーバビリティ

GPU使用率、レンダラー、タイラー、メモリをリアルタイム計測 — パッシブIOReportで。ライブゲージ、スパークライン、履歴チャート。Apple Silicon GPUをかつてない精度で可視化。

📉

リグレッション検出

OSやエンジンの更新後にパフォーマンス低下を自動検出。SQLite履歴、90日保持。

🌐

REST API

自動化のための完全なJSON API。/api/snapshot、/api/status、/api/metrics — あらゆるスタックと統合。

📈

Prometheusネイティブ

組み込み/metricsエンドポイント。Grafana、Datadog、その他Prometheus互換ツールに接続。設定不要。

🔔

アラートWebhook

メモリ逼迫、サーマルスロットリング、エンジンダウン時にSlack、Discord、任意URLへPOST。状態遷移ベース — スパムなし。

🏆

コミュニティリーダーボード

ベンチマークを匿名で共有。コミュニティとMacを比較。同じチップでの他のユーザーの結果を確認。

💡

スマート推薦

"M4 Pro 64GBで、コード用：Qwen3.5-35B + mlx-lm、71 tok/s。" r/LocalLLaMAの#1質問にデータで回答。

🌐

分散推論

Exoクラスターのベンチマーク。Mac Mini 2台 = Llama 3.3 70B。asiaiはスウォームを1台のマシンのように計測。

🎴

ベンチマークカード

コマンド1つで共有可能な画像。asiai bench --cardを実行すると、モデル、チップ、エンジン比較、勝者が入った1200x630ダークテーマカードが生成。Reddit、X、Discordで共有。ローカルLLMのSpeedtest。

🤖

エージェント対応API

人間のために構築。AIエージェント対応。JSONエンドポイント、Prometheusメトリクス、診断デシジョンツリー、推論アクティビティシグナルを備えたREST API。AIエージェントにURLを渡して自己監視させましょう。

何を発見できる？

r/LocalLLaMAからのリアルな疑問に、コマンド一発で回答。

🏆

"どのエンジンが最速？"

直接対決 — r/LocalLLaMAで最も多い質問。

🤖

"マルチエージェント群の監視"

AIエージェント用LLMを24時間稼働 — VRAM、温度、パフォーマンスを追跡。

🔋

"エネルギー効率を比較"

エンジン間のワットあたりtok/s。24時間稼働のMac Miniホームラボに不可欠。

🚨

"更新後のリグレッション検出"

OllamaやmacOSのアップデートでパフォーマンスが低下？SQLiteで自動検出。

📏

"ロングコンテキスト対応をテスト"

--context-size 64kベンチマーク。あなたのモデルは256kコンテキストに耐えられる？

🔥

"Macがサーマルスロットリングしてる？"

ベンチマーク間のドリフト検出。asiai独自の機能。

📊

"再現可能なベンチマーク"

MLPerf/SPEC準拠の方法論。ウォームアップ、中央値、greedy decoding。自信を持って共有。

🩺

"コマンド一発でヘルスチェック"

asiai doctorがシステム、エンジン、データベースを診断し修正案を提示。

💻

"ビジュアルダッシュボード"

ダーク/ライト対応Webダッシュボード。ライブチャート、SSE進捗、ベンチマーク操作。

🔄

"LLMを直接対決で比較"

同じエンジン、異なるモデル。どの量子化が勝つ？

📡

"Prometheus + Grafana監視"

/metricsを公開、Prometheusでスクレイプ、Grafanaで可視化。本番品質の可観測性。

🧠

"AIエージェント推論を追跡"

GPUアクティビティ、TCP接続、KVキャッシュ — エージェントが推論中か、アイドルか、過負荷かを把握。スウォームオーケストレーターに対応するAPI。

60秒で稼働開始

コマンド3つ。以上。

インストール

brew install asiai

検出

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3つのエンジンを検出

ベンチマーク

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

実際の発見

Apple Silicon上での実際のベンチマークデータ。

2.3x

MLX vs llama.cpp

Apple SiliconでMoEアーキテクチャ（Qwen3.5-35B-A3B）にはMLXが2.3倍高速。

Flat

VRAM: 64k → 256k

DeltaNetでは64kから256kコンテキストでもVRAMが一定 — 他のどこにも文書化されていない。

30 vs 71

エンジン > モデル

同じモデル、同じMac：一方のエンジンで30 tok/s、別のエンジンで71 tok/s。エンジンの方が重要。

対応エンジン

自動検出、設定不要。

Engine	デフォルトポート	API	形式	VRAM
Ollama	`11434`	ネイティブ	GGUF	✔
LM Studio	`1234`	OpenAI互換	GGUF + MLX	✔
mlx-lm	`8080`	OpenAI互換	MLX	—
llama.cpp	`8080`	OpenAI互換	GGUF	—
oMLX	`8000`	OpenAI互換	MLX	—
vllm-mlx	`8000`	OpenAI互換	MLX	—
Exo	`52415`	OpenAI互換	MLX	—

何を測定するか

8つの指標、一貫した方法論、毎回。

🚀

tok/s

生成速度 (tokens/sec)

⏱️

TTFT

最初のトークンまでの時間

⚡

Power (W)

GPU消費電力（ワット）

🔋

tok/s/W

エネルギー効率

📈

Stability

実行間バラつき

💾

VRAM

GPUメモリ使用量

🌡️

Thermal

スロットリング状態

📏

Context

ロングコンテキスト性能スケーリング

始めよう

秒速インストール。依存関係ゼロ。

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub ドキュメント方法論 Apache 2.0 ❤ Sponsor

⭐ asiai が役に立ったら、スターで他の人にも届けましょう

🌍 このページは機械翻訳です。正確でない場合があります。修正は GitHub Issue でお寄せください。

どのLLM？どのエンジン？あなたのMacで最強の組み合わせは？AIエージェントに推論の可視性を

ローカルLLMの課題

断片化

盲目

手動

Apple Siliconパワーユーザーのために設計

ヘッドツーヘッド・ベンチマーク

エネルギー効率

7エンジン、1つのCLI

依存関係ゼロ

GPUオブザーバビリティ

リグレッション検出

REST API

Prometheusネイティブ

アラートWebhook

コミュニティリーダーボード

スマート推薦

分散推論

ベンチマークカード

エージェント対応API

何を発見できる？

"どのエンジンが最速？"

"マルチエージェント群の監視"

"エネルギー効率を比較"

"更新後のリグレッション検出"

"ロングコンテキスト対応をテスト"

"Macがサーマルスロットリングしてる？"

"再現可能なベンチマーク"

"コマンド一発でヘルスチェック"

"ビジュアルダッシュボード"

"LLMを直接対決で比較"

"Prometheus + Grafana監視"

"AIエージェント推論を追跡"

60秒で稼働開始

インストール

検出

ベンチマーク

実際の発見

MLX vs llama.cpp

VRAM: 64k → 256k

エンジン > モデル

対応エンジン

何を測定するか

tok/s

TTFT

Power (W)

tok/s/W

Stability

VRAM

Thermal

Context

始めよう

どのLLM？どのエンジン？
あなたのMacで最強の組み合わせは？AIエージェントに
推論の可視性を