asiai logo

どのLLM?どのエンジン?
あなたのMacで最強の組み合わせは?
AIエージェントに
推論の可視性を

ベンチマークで選ぶ。ダッシュボードで監視。履歴で問題を発見。asiaiのREST APIにより、AIエージェントがローカルLLMインフラを自律的に監視・診断・最適化できます。

🧑 ヒューマン AIエージェント 🤖
Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

GET /api/status ≤ 500ms
{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}
GET /api/snapshot Full state
{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

ローカルLLMの課題

心当たりありませんか?

🧩

断片化

Ollama、LM Studio、mlx-lm — それぞれ独自のCLI、フォーマット、指標。共通基盤なし。

🙈

盲目

リアルタイムVRAM監視なし、電力追跡なし、温度アラートなし。完全に盲目飛行。

📋

手動

ベンチマーク=curlスクリプト、数値のコピペ、スプレッドシートで比較。

Apple Siliconパワーユーザーのために設計

ローカル推論のベンチマーク、監視、最適化に必要なすべて。

⚔️

ヘッドツーヘッド・ベンチマーク

同じモデルをOllama vs LM Studio vs mlx-lmで比較。コマンド一発、実測値。

エネルギー効率

推論中のGPU消費電力を測定。tok/sあたりのワット数を把握 — 他にはない機能。

🔧

7エンジン、1つのCLI

Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo。自動検出、自動設定。

📦

依存関係ゼロ

Python標準ライブラリのみ。requests不要、psutil不要、rich不要。秒速インストール。

🔍

GPUオブザーバビリティ

GPU使用率、レンダラー、タイラー、メモリをリアルタイム計測 — パッシブIOReportで。ライブゲージ、スパークライン、履歴チャート。Apple Silicon GPUをかつてない精度で可視化。

📉

リグレッション検出

OSやエンジンの更新後にパフォーマンス低下を自動検出。SQLite履歴、90日保持。

🌐

REST API

自動化のための完全なJSON API。/api/snapshot、/api/status、/api/metrics — あらゆるスタックと統合。

📈

Prometheusネイティブ

組み込み/metricsエンドポイント。Grafana、Datadog、その他Prometheus互換ツールに接続。設定不要。

🔔

アラートWebhook

メモリ逼迫、サーマルスロットリング、エンジンダウン時にSlack、Discord、任意URLへPOST。状態遷移ベース — スパムなし。

🏆

コミュニティリーダーボード

ベンチマークを匿名で共有。コミュニティとMacを比較。同じチップでの他のユーザーの結果を確認。

💡

スマート推薦

"M4 Pro 64GBで、コード用:Qwen3.5-35B + mlx-lm、71 tok/s。" r/LocalLLaMAの#1質問にデータで回答。

🌐

分散推論

Exoクラスターのベンチマーク。Mac Mini 2台 = Llama 3.3 70B。asiaiはスウォームを1台のマシンのように計測。

🎴

ベンチマークカード

コマンド1つで共有可能な画像。asiai bench --cardを実行すると、モデル、チップ、エンジン比較、勝者が入った1200x630ダークテーマカードが生成。Reddit、X、Discordで共有。ローカルLLMのSpeedtest。

🤖

エージェント対応API

人間のために構築。AIエージェント対応。JSONエンドポイント、Prometheusメトリクス、診断デシジョンツリー、推論アクティビティシグナルを備えたREST API。AIエージェントにURLを渡して自己監視させましょう。

何を発見できる?

r/LocalLLaMAからのリアルな疑問に、コマンド一発で回答。

🏆

"どのエンジンが最速?"

直接対決 — r/LocalLLaMAで最も多い質問。

🤖

"マルチエージェント群の監視"

AIエージェント用LLMを24時間稼働 — VRAM、温度、パフォーマンスを追跡。

🔋

"エネルギー効率を比較"

エンジン間のワットあたりtok/s。24時間稼働のMac Miniホームラボに不可欠。

🚨

"更新後のリグレッション検出"

OllamaやmacOSのアップデートでパフォーマンスが低下?SQLiteで自動検出。

📏

"ロングコンテキスト対応をテスト"

--context-size 64kベンチマーク。あなたのモデルは256kコンテキストに耐えられる?

🔥

"Macがサーマルスロットリングしてる?"

ベンチマーク間のドリフト検出。asiai独自の機能。

📊

"再現可能なベンチマーク"

MLPerf/SPEC準拠の方法論。ウォームアップ、中央値、greedy decoding。自信を持って共有。

🩺

"コマンド一発でヘルスチェック"

asiai doctorがシステム、エンジン、データベースを診断し修正案を提示。

💻

"ビジュアルダッシュボード"

ダーク/ライト対応Webダッシュボード。ライブチャート、SSE進捗、ベンチマーク操作。

🔄

"LLMを直接対決で比較"

同じエンジン、異なるモデル。どの量子化が勝つ?

📡

"Prometheus + Grafana監視"

/metricsを公開、Prometheusでスクレイプ、Grafanaで可視化。本番品質の可観測性。

🧠

"AIエージェント推論を追跡"

GPUアクティビティ、TCP接続、KVキャッシュ — エージェントが推論中か、アイドルか、過負荷かを把握。スウォームオーケストレーターに対応するAPI。

60秒で稼働開始

コマンド3つ。以上。

1

インストール

brew install asiai
2

検出

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3つのエンジンを検出
3

ベンチマーク

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

実際の発見

Apple Silicon上での実際のベンチマークデータ。

2.3x

MLX vs llama.cpp

Apple SiliconでMoEアーキテクチャ(Qwen3.5-35B-A3B)にはMLXが2.3倍高速。

Flat

VRAM: 64k → 256k

DeltaNetでは64kから256kコンテキストでもVRAMが一定 — 他のどこにも文書化されていない。

30 vs 71

エンジン > モデル

同じモデル、同じMac:一方のエンジンで30 tok/s、別のエンジンで71 tok/s。エンジンの方が重要。

対応エンジン

自動検出、設定不要。

Engine デフォルトポート API 形式 VRAM
Ollama 11434 ネイティブ GGUF
LM Studio 1234 OpenAI互換 GGUF + MLX
mlx-lm 8080 OpenAI互換 MLX
llama.cpp 8080 OpenAI互換 GGUF
oMLX 8000 OpenAI互換 MLX
vllm-mlx 8000 OpenAI互換 MLX
Exo 52415 OpenAI互換 MLX

何を測定するか

8つの指標、一貫した方法論、毎回。

🚀

tok/s

生成速度 (tokens/sec)

⏱️

TTFT

最初のトークンまでの時間

Power (W)

GPU消費電力(ワット)

🔋

tok/s/W

エネルギー効率

📈

Stability

実行間バラつき

💾

VRAM

GPUメモリ使用量

🌡️

Thermal

スロットリング状態

📏

Context

ロングコンテキスト性能スケーリング

始めよう

秒速インストール。依存関係ゼロ。

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

asiai が役に立ったら、スターで他の人にも届けましょう

🌍 このページは機械翻訳です。正確でない場合があります。修正は GitHub Issue でお寄せください。