エージェントループのパターン — ハーネスが ②③④ をどう回すか

「連携パターン」でも「ワークフロー」でもない、第 3 の軸。単一エージェントのループの駆動型を整理する。

このドキュメントについて

NOTE

本ページは Harness Engineering との対応関係の Orchestration（ループ制御）→ Agent 層 の写像の「中身」を扱う。ハーネスが ① tool_call → ② 実 I/O → ③ 結果 → ④ 文脈に戻す のループをどう反復するかの型（ReAct / Plan-and-Execute / Reflexion / Evaluator-Optimizer）をカタログ化する。

「ハーネスパターン」という名前は標準用語ではないが、その中身は確立して存在する。文献では agent patterns / single-agent patterns / agentic reasoning patterns と呼ばれる。

TIP

3 行で言うと

本サイトの「パターン」には 3 軸ある: 構成（どの部品を組むか）/ トポロジ（複数エージェントの繋がり方）/ ループ（単一エージェントの回し方）。本ページは 3 つ目。
ループの型は ReAct（密な反復）/ Plan-and-Execute（計画と実行の分離）/ Reflexion（自己批評）/ Evaluator-Optimizer（生成役と評価役の分離）。
Anthropic の「workflows（決定的フロー）vs agents（自律ループ）」二分では、本ページは agents 側にあたる。

3 つの「パターン」軸を混同しない

エージェント設計で「パターン」と言う時、実は層の違う 3 つを指している。

軸	問い	性質	本サイトのページ
構成パターン	どの部品を静的に組むか	空間的・静的	構成パターン（MCP + Skill 等）
トポロジ（設計パターン）	複数エージェントがどう繋がるか	空間的・静的	エージェント概念の分類（Orchestrator-Worker / Swarm）
ループパターン	単一エージェントが ②③④ をどう反復するか	時間的・動的	本ページ

IMPORTANT

Orchestrator-Worker や Swarm は「誰と誰が繋がるか」のトポロジであって、「どう反復するか」のループ型ではない。両者は直交する。たとえば Orchestrator-Worker の各 Worker が内部で ReAct を回す、という組み合わせが成立する。

ループパターンのカタログ

1. ReAct — 密な反復ループ

Thought（思考）→ Action（ツール呼び出し）→ Observation（結果） を 1 ステップずつ回し、観測を次の思考に戻す。最も基本的で適応的。② 実 I/O ごとに次手を考え直すため、動的・探索的なタスクに強い。

長所: 各ステップで軌道修正できる。実装が単純。
短所: ステップごとに観測を文脈へ積むためトークン消費が増える。長いタスクで脱線・暴走しやすい（→ 上限ガードが必須）。

2. Plan-and-Execute / ReWOO — 計画と実行の分離

先に全手順を計画し、その後は計画どおり実行に徹する。Planner（計画役・ツールを呼ばない）と Executor（実行役）に分かれる。ReWOO は観測を推論から切り離し、トークン消費を抑える派生。

長所: 手順が監査可能・再現可能。長い調査やレポート生成で効率的。
短所: 計画時の前提が崩れると弱い（実行中の軌道修正が効きにくい）。

TIP

実務では 外側を Plan-and-Execute、各ステップ内を ReAct にする組み合わせが多い。予測可能な骨格を保ちつつ、ステップ内では適応する。

3. Reflexion — 自己批評ループ

ReAct を拡張し、各サイクル後に自分の出力を批評し、その洞察を記憶して次に活かす。失敗を学習に変える外側のループ。

長所: 自己修正で難タスクの成功率が上がる。
短所: 批評・再試行のたびにコストが増える。停止条件が甘いと回り続ける。

4. Evaluator-Optimizer — 生成役と評価役の分離

生成役（Optimizer）と評価役（Evaluator）を分け、評価が「不足」と判断したら再生成させる。本サイトの品質ゲートや、翻訳の xcomet ゲートがこの型。

長所: 評価基準が明文化され、品質が安定する。
短所: 評価のオーバーヘッドがコストの天井になる（節約を超えたら本末転倒）。

NOTE

Reflexion が「自分で自分を批評する」のに対し、Evaluator-Optimizer は「別役が評価する」。前者はループ内の自己反省、後者は役割分離。実装では混ざることも多い。

workflows と agents の二分での位置づけ

Anthropic の "Building Effective Agents" は、決まった制御フロー＝workflows と、自律的にループを回す＝agents を区別する。

本サイトの連携パターン・ワークフローは**決定的フロー（workflows 側）のドメイン別カタログ。本ページは自律ループ（agents 側）**の駆動型を扱う。両者は補完関係にある。

選択ガイド

状況	推奨パターン
タスクが動的・探索的で、毎ステップ判断が要る	ReAct
手順が予測可能で、監査・再現性が要る（長い調査・レポート）	Plan-and-Execute
トークン消費を抑えたい（観測を推論から切り離す）	ReWOO
失敗から学習させ、成功率を上げたい	Reflexion
品質基準を明文化し、出力を安定させたい	Evaluator-Optimizer
入口で種類ごとに振り分けたい	routing（→ Routing vs Cascading）

WARNING

どの型でも 上限ガード（最大ラウンド / recursionLimit） は必須。ツールがエラーを返してもモデルは止まらず回り続けるため、収束ガイドと打ち切りがないと暴走とコスト超過を招く。

ハーネス 4 責務との対応

ループパターン	主に効くハーネス責務
ReAct / Plan-and-Execute	Orchestration（ループ制御）
Reflexion / Evaluator-Optimizer	Orchestration + フィードバック（評価）
全パターン共通	Guardrails（上限ガード・打ち切り）

→ 責務の全体像は Harness Engineering との対応関係、評価の自律修正はサブエージェント品質ゲートを参照。

🔗 さらに深く: なぜ自律ループに「評価」と「上限ガード」が要るのか

本ページはループの型 (What/How) を扱った。「なぜ自己批評・評価ゲート・上限ガードが必要なのか」を LLM の構造的制約から理解したい場合は、姉妹サイトを参照。

understanding-llm / Part 1: 構造的問題 — モデルが自分の確信度を信頼できない（Sycophancy / Knowledge Boundary）から、外側の評価が要る
understanding-llm / 付録: Harness と LLM の構造的制約 — ハーネス各要素 ⇔ 8 問題の対応

参考文献

Anthropic (2024). "Building Effective Agents." Anthropic Engineering. anthropic.com/engineering — workflows vs agents の二分、Evaluator-Optimizer 等の定義
Yao, S. et al. (2022). "ReAct: Synergizing Reasoning and Acting in Language Models." arXiv. arXiv:2210.03629 — Thought-Action-Observation ループの原典
Shinn, N. et al. (2023). "Reflexion: Language Agents with Verbal Reinforcement Learning." arXiv. arXiv:2303.11366 — 自己批評と言語による強化
Xu, B. et al. (2023). "ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models." arXiv. arXiv:2305.18323 — 観測を推論から切り離しトークン削減

前へ: Routing vs Cascading次へ: Discovery vs Production

最終更新: 2026 年 6 月

エージェントループのパターン — ハーネスが ②③④ をどう回すか ​

このドキュメントについて ​

3 つの「パターン」軸を混同しない ​

ループパターンのカタログ ​

1. ReAct — 密な反復ループ ​

2. Plan-and-Execute / ReWOO — 計画と実行の分離 ​

3. Reflexion — 自己批評ループ ​

4. Evaluator-Optimizer — 生成役と評価役の分離 ​

workflows と agents の二分での位置づけ ​

選択ガイド ​

ハーネス 4 責務との対応 ​

🔗 さらに深く: なぜ自律ループに「評価」と「上限ガード」が要るのか ​

関連ドキュメント ​

参考文献 ​