Skip to content

Issue→Deploy 自律化: Meta-agent + Sub-agent パターン

Issue から Deploy までを AI が自律駆動する開発パイプラインを、Meta-agent によるオーケストレーション + 役割別 Sub-agent 群として設計する。

このドキュメントについて

NOTE

本ページは「AI が AI を駆動して Issue → Deploy までを完遂する」自律開発パイプラインの構造を、5 層モデル (Doctrine / Agent / Skills / Memory / MCP) に写像して整理する。クラウド LLM 版とローカル LLM 版の両方を提示する。

このパイプラインは、shuji-bonji の Zenn 記事 CLAUDE.md がなくても戦える — LLM の構造的制約を踏まえたプロンプト駆動開発 で述べた 「手動のステップ分割によるプロンプト駆動開発」を、Sub-agent + Meta-agent 構造として自動化 したものに相当する。両者は 同じ原理 (Context Rot / Instruction Decay / Sycophancy への構造的対策) の異なる実装 であり、ツール支援の有無で実装手段が変わるだけで、設計判断は同一である。

TIP

3 行で言うと

  • Zenn 記事の「別チャットに成果物ファイルを渡す」= Sub-agent の独立コンテキスト + artifact handoff
  • Meta-agent は artifact パスだけ を扱うルーターに徹し、Sub-agent 出力を要約・統合しない (Context Rot 回避)
  • 1 フェーズ = 1 Sub-agent が粒度の目安。Sub-agent を細かく刻みすぎると起動オーバーヘッドが本体タスクを上回る

ドキュメントシリーズにおける位置づけ

1. 手動プロンプト駆動開発との対応関係

Zenn 記事で論じた「ツール支援が無い環境での手動運用」と、本ページで論じる「Sub-agent + Meta-agent による自動運用」は、同じ構造的制約 (Context Rot / Instruction Decay / Sycophancy) への対策を、異なる実装手段で行ったものである。

Zenn 記事 (手動)Sub-agent 自動化対処している構造的問題
「別チャット」で実装を依頼Sub-agent の独立コンテキストContext Rot
成果物を ファイル化 して渡すSub-agent 間の artifact handoffContext Rot
別のモデルにレビューさせるReviewer Sub-agent (異なる LLM)Sycophancy
フェーズごとにコミット + リセットSub-agent 終了で context 自動破棄Instruction Decay
Premium 消費のモデル使い分けMeta-agent による model routingコスト最適化 (副次的)
指示書 → 計画書 → レビューPlanner → Critic Sub-agentSycophancy
指示書テンプレSkill (SKILL.md)Knowledge Boundary

IMPORTANT

Sub-agent 化は「便利だからやる」のではなく、LLM の構造的制約から論理的に導かれる対策の自動化 である。手動でやっていることを機械に任せるだけ。これを見失うと「単なる多重起動」になりコストだけ膨らむ。

2. 共通アーキテクチャ (LLM 非依存)

5 層モデルに各ステップを写像すると、どこを差し替えればクラウド版・ローカル版になるかが明確になる。

3. Artifact 駆動の Sub-agent 間連携

本パイプラインの核心は、Sub-agent 間の通信を artifact ファイルだけに限定 すること。これは Zenn 記事の「成果物がコンテキストの代替になる」原則そのものである。

IMPORTANT

Meta-agent は artifact のパスだけ を Sub-agent に渡す。Sub-agent の出力を Meta-agent に呼び戻して要約・統合してはならない。これをやると Meta-agent のコンテキストに全 Sub-agent の試行錯誤が蓄積し、Meta-agent 自身が Context Rot を起こす。Meta-agent は state machine + ルーター に徹し、内容には踏み込まない。

4. ステップごとの責務マッピング

#ステップ担当 Sub-agent主な Skills主な MCP終了条件 (Doctrine)
1Issue 読解Instructorissue-triageGitHub MCP, RAGラベル / 影響範囲確定
2実装設計Plannerimpl-design, ADRCodebase RAG, FS read設計案 + 不確実性リスト出力
3コード作成Codercoding-conventionsFS Edit, type-checklint / typecheck PASS
4テストコード作成Test Designertest-strategyFS Editカバレッジ目標到達
5テスト実行 ①Test RunnerShell (sandbox)全テスト GREEN
6Git 操作Committerconventional-commitsGit CLI MCPbranch / commit 整形済
7PR 作成Committerpr-descriptionGitHub MCPテンプレ + Issue リンク
8テスト ② (統合)CICI MCPCI GREEN
9コードレビューReviewer (別文脈)code-review-checklistGitHub MCP, RAG指摘ゼロ or 修正反映
10テスト ③ (再実行)CICI MCPCI GREEN
11CI/CD デプロイOrchestratorrelease-skillCI MCP, Deploy MCPhealth-check PASS

CAUTION

Reviewer は MUST 独立コンテキストの Sub-agent にすること。Coder と同じ文脈だと自己肯定バイアス (Sycophancy) でほぼ指摘が出ない。可能なら 異なる LLM (例: Coder=Sonnet, Reviewer=Opus / GPT-5) を使う。これが本アーキテクチャの肝。

5. ループ構造 (失敗時の自己修復)

各リトライには 上限 N (例: 3) を設けて、超過したら Human-in-the-Loop に escalate する。この上限が無いと「直らないものを延々試す」コスト破綻を起こす。失敗カタログ (Memory 層) を参照し、同じ症状が繰り返したら早期に止める ロジックも有効。

6. クラウド LLM 版スタック

レイヤー採用例
HarnessClaude Agent SDK / Claude Code / Cursor Agent / Devin / OpenHands
LLMClaude Sonnet 4.6 (主), Opus 4.6 (設計・レビュー), GPT-5 / Gemini 2.5 でも可
Skills.claude/skills/* (本サイトの方式)
MCPGitHub MCP, Playwright MCP, CI MCP, Codebase RAG
MemoryMEMORY.md + マネージド Vector DB
SandboxGitHub Actions / Cloud Run sandbox

強み: 32K〜200K の長文脈、複雑な依存関係の把握、ツール呼び出しの安定性、Sub-agent ネイティブサポート。

弱み: 1 Issue あたり $5〜$50 のコスト、コードが外部に出る、レート制限。

7. ローカル LLM 版スタック

レイヤー採用例
Harnessaider / Goose (Block 製) / Continue.dev / OpenHands / Cline
LLMQwen2.5-Coder-32B-Instruct, DeepSeek-Coder-V2-Lite, Codestral-22B, GLM-4-32B
RuntimeOllama (お手軽) / vLLM (本気) / llama.cpp (省メモリ)
Skillsプロンプトテンプレ + few-shot examples (Skills 機構を持つ harness は少ない)
MCPクラウド版と同一 (これが MCP の最大の利点)
MemoryQdrant local / Chroma / SQLite-VSS
SandboxDocker / Firejail / nsjail
最低スペックRTX 4090 24GB or M2 Max 64GB (32B 量子化を動かす目安)

強み: コードが外に出ない、月額固定、レート制限なし、Sub-agent 化の恩恵がクラウド版より大きい (理由は後述)。

弱み: 100K 超の文脈で破綻、ツール呼び出しが不安定 (32B クラスでも JSON 崩れる)、複雑な依存把握が弱い。

IMPORTANT

ローカル LLM は 長コンテキストに特に弱い ため、Sub-agent 分割の恩恵が クラウド版より大きい。各 Sub-agent の context を 8〜16K に保てれば、ローカルでも安定稼働の可能性が出てくる。Meta-agent + Sub-agent パターンは「ローカル LLM 自律化を現実にする鍵」 と言ってもいい。

8. 比較表

観点クラウド LLMローカル LLM
Issue 解読精度○ (短文なら)
実装設計 (多ファイル)
単一ファイルのコード生成○〜◎
テストコード生成
Tool / MCP 呼び出し安定性△ (JSON 崩壊頻発)
長コンテキスト (>32K)× (実用域は 8〜16K)
コスト / Issue$5〜$50電気代のみ
コード機密性△ (規約次第)
レート制限ありなし
自己レビューの厳しさ△ (Sycophancy 強め)
不確実性の自覚× (幻覚に気づきにくい)
Sub-agent 化の必要度最高

9. ハイブリッド推奨 (2026 年現在のスイートスポット)

  • コード生成は Local設計とレビューは Cloud の役割分担が 2026 年現在のスイートスポット
  • レビューを Cloud にする理由: 「批判的読解」「依存関係の把握」「セキュリティ観点」は 32B クラスでは弱い
  • 機密コードを完全にローカルで完結させたい場合は、レビューを 複数の異なるローカルモデル (Qwen + DeepSeek) で別文脈クロスチェックする

10. 効率トレードオフ (正直なところ)

観点モノリス AgentMeta + Sub-agent
トークン総量少 (1 セッション完結)多 (各 Sub-agent に role / context)
品質 (Context Rot 耐性)
Sycophancy 抑止× (自己レビュー)◎ (Reviewer 別文脈)
モデル使い分け×◎ (役割ごとに最適化)
デバッグ可能性△ (1 本のログ)◎ (artifact ごとに検証)
レイテンシ長 (直列実行多)
失敗局所化◎ (該当 Sub-agent だけ再実行)

トークンとレイテンシは増えるが、その分は 品質と再実行コストの削減で回収 できる。モノリスで「最後の PR レビューで全部やり直し」より、Sub-agent で各フェーズ独立検証する方が総コスト安。

11. 自律化を阻む 3 つの落とし穴

WARNING

① 不確実性の自覚なき修正ループ: 「テスト失敗 → 適当に直す → また失敗」を無限ループ。リトライ上限 + 「失敗パターンが繰り返したら止める」検知器が MUST。

② Reviewer Sub-agent の同コンテキスト化: Coder と同じセッションで「レビューして」と頼んでも見つからない。MUST 別プロセス・別文脈・できれば別モデル。

③ Memory なき開発: 毎回プロジェクト規約をゼロから読ませる scatter-gather 問題。ADR と過去 PR を Memory に索引化すべき。(記憶と知識統合 参照)

WARNING

加えて ④ Meta-agent の肥大化: Meta-agent が Sub-agent 出力を要約・統合し始めた瞬間にこのパターンは崩壊する。Meta-agent は state machine + artifact ルーターに徹し、内容に踏み込まないこと。

12. 実証 → 形式化への還流

このアーキテクチャは「設計してから動かす」よりも、「最小単位で動かしてからワークフローに昇格させる」 ことが推奨される。実証で得られた知見の還流先は以下の通り。

Management 側に書くべきは 「ワークフロー (How we manage)」であって「実装 (How it works)」ではない。実装は実験プロジェクト側に残し、Management にはこんな粒度で落とす:

  • どの判断は人間に残すか (escalation matrix)
  • 各ステップのリトライ上限 / 中断条件 (governance)
  • 計測すべき KPI (成功率、介入率、Issue あたりコスト)
  • 失敗の分類カタログ (root cause taxonomy)

関連ドキュメント

🔗 さらに深く: なぜ Sub-agent 分離が効くのか

本ページは Meta + Sub-agent パターンの 構造 (What / How) を扱った。「なぜ Sub-agent 分離が品質に効くのか」を LLM の構造的制約から理解したい場合は、姉妹サイトを参照。

参考文献

  • shuji-bonji (2026). "CLAUDE.md がなくても戦える — LLM の構造的制約を踏まえたプロンプト駆動開発." Zenn. zenn.dev/shuji_bonji — 本ページの手動運用版
  • Osmani, A. (2025). "agent-skills: Production-grade engineering skills for AI coding agents." github.com/addyosmani/agent-skills — Plain Markdown による Skills 体系化
  • Hong, K., Troynikov, A., & Huber, J. (2025). "Context Rot: How Increasing Input Tokens Impacts LLM Performance." Chroma Research. research.trychroma.com — Sub-agent 分離が効く構造的根拠

前へ: マルチエージェント連携

最終更新: 2026年6月

Released under the MIT License.