Xmchx's Blog
AI

The Multi-Agent Architecture That Actually Ships

AI 的瓶颈已经不再是模型能力,而是人类监督 AI 的带宽

The Multi-Agent Architecture That Actually Ships

Luke Alvoeiro @ Factory


核心主题

AI 的瓶颈已经不再是模型能力, 而是”人类监督 AI 的带宽”。

当前很多 AI Agent 系统的问题:

  • 能生成代码
  • 能调用工具
  • 能完成短任务

但:

  • 无法长期运行
  • 无法稳定协作
  • 无法持续推进复杂项目
  • 无法可靠恢复状态
  • 人类需要频繁介入

Factory 的目标:

构建真正能够连续工作数天的 Autonomous Software Agents。


一、传统 Agent 架构的问题

1. Request-Response 架构太短暂

大部分 Agent:

User Prompt

LLM

Tool Call

Done

问题:

  • 没有长期状态
  • 无 durable execution
  • 无任务恢复
  • 无持续 memory
  • 无长期 planning

本质仍然是:

Chatbot + Tool Calling

而不是:

Persistent Autonomous System

2. 人类监督成为瓶颈

模型越来越强后:

  • 真正的限制不是模型智商
  • 而是人的 attention bandwidth

即:

一个人无法同时监督大量 AI Worker

导致:

  • backlog 清不掉
  • 人类持续成为阻塞点
  • AI 无法 scale

二、Multi-Agent Taxonomy(Agent 架构分类)

Luke 将常见 Agent 系统分成几类。


1. Delegation Architecture(委派架构)

结构:

Planner Agent
 ├── Backend Agent
 ├── Frontend Agent
 ├── Testing Agent
 └── Database Agent

特点:

  • Planner 拆分任务
  • Worker 执行子任务
  • 适合复杂工程任务

优点:

  • 可扩展
  • 并行化
  • 职责清晰

问题:

  • context 分裂
  • coordination 成本高
  • merge conflict
  • state 不一致

2. Creator-Verifier Architecture(生成 + 验证)

这是 Factory 强调最多的模式。

结构:

Creator Agent

Verifier Agent

Creator:

  • 写代码
  • 修改系统
  • 生成方案

Verifier:

  • Review
  • Test
  • Challenge
  • Validate

核心观点:

Generation 容易产生幻觉, Verification 必须独立。

原因:

  • Agent 会对自己的输出产生偏见
  • Self-review 不可靠
  • Verification 必须解耦

这是整个 talk 最重要的观点之一。


3. Direct Communication Architecture

结构:

Agent A ↔ Agent B ↔ Agent C

所有 Agent 直接通信。

问题:

  • state 容易漂移
  • 信息同步困难
  • 缺少 single source of truth
  • 系统复杂度指数级上升

Factory 后期逐渐避免:

Fully Mesh Agent Networks

因为:

Agent 越多, 系统越不可控。


三、Factory 的核心:Mission Architecture

这是整个 Talk 的核心。


Mission 的定义

Mission ≠ Prompt

Mission 是:

长期存在的自治任务

特点:

  • 可持续运行
  • 可恢复
  • 可 checkpoint
  • 可 handoff
  • 可追踪
  • 可验证

Mission 架构

Mission
 ├── Planner
 ├── Worker
 ├── Researcher
 ├── Verifier
 ├── Recovery Agent
 └── Human Supervisor

四、Mission 生命周期

1. Task Planning

Planner:

  • 理解目标
  • 分解任务
  • 生成 execution graph

例如:

Build Feature X
 ├── Design API
 ├── Update Backend
 ├── Update Frontend
 ├── Add Tests
 └── Deploy

2. Worker Execution

Worker:

  • 修改代码
  • 调用工具
  • 执行 shell
  • 写测试
  • 更新文档

特点:

长时间 autonomous execution

3. Verification

Verifier:

  • Run tests
  • Review diffs
  • Validate correctness
  • Challenge assumptions

关键理念:

Verification > Generation

Factory 认为:

生成代码已经不难。

真正困难的是:

如何稳定地产生正确代码

4. Checkpointing

Mission 会自动保存:

  • 当前上下文
  • 已完成任务
  • 系统状态
  • Agent memory
  • tool outputs

目的:

支持长期运行与恢复

5. Recovery

如果:

  • context overflow
  • model crash
  • tool failure
  • token limit
  • API timeout

系统能够:

自动恢复任务

而不是从头开始。


五、为什么他们不再推崇”大规模并行 Agent”

这是 Talk 非常重要的一部分。

很多 Multi-Agent Demo:

100 agents simultaneously coding

看起来很酷。

但 Factory 实际发现:

Correctness exponentially degrades

问题:

  • merge conflicts
  • duplicated work
  • inconsistent assumptions
  • conflicting edits
  • coordination overhead

他们后来的结论

更稳定的模式:

Single Worker
    +
Independent Verifier

即:

  • 少量 Worker
  • 强 Verification
  • 强状态管理
  • 强恢复能力

而不是:

大量并发 Agent

六、Mission Control(任务控制系统)

Factory 构建了:

Mission Control

类似:

Cursor
+ Jira
+ CI/CD Dashboard
+ Agent Runtime

功能

1. 查看 Agent 状态

例如:

Running
Blocked
Waiting
Verifying
Recovering

2. 查看任务树

Mission
 ├── Task A
 ├── Task B
 └── Task C

3. 查看 Handoff

Agent 会生成:

handoff summary

供下一个 Agent 继续工作。


4. Human Intervention

人类可以:

  • approve
  • reject
  • redirect
  • pause
  • resume

但:

人类不是 micromanager

而是:

Supervisor

七、长期运行 Agent(Days-long Agents)

这是 Factory 与很多 AI Agent 框架最大的区别。


普通 Agent

Minutes-long

只能:

  • 回答问题
  • 写一点代码
  • 完成短任务

Factory Agent

Days-long execution

支持:

  • 长时间运行
  • 自动恢复
  • 持续 planning
  • 持续 verification
  • durable state
  • autonomous iteration

八、与其它框架的区别

AutoGPT

问题:

  • loop 不稳定
  • context 漂移
  • 缺少验证机制

CrewAI

优点:

  • agent role abstraction

问题:

  • 偏 workflow
  • 缺 durable runtime

LangGraph

优点:

  • state machine
  • graph orchestration

缺点:

  • 仍需大量工程化

OpenAI Swarm

优点:

  • handoff 简洁

问题:

  • 偏 lightweight orchestration

Factory 更关注:

Persistent Production Runtime

而不是:

Prompt Chaining

九、Talk 的核心观点总结


1. AI 已经足够聪明

问题不再是:

模型能力

而是:

系统架构

2. Verification 比 Generation 更重要

未来竞争力:

不是:

谁生成代码更快

而是:

谁验证得更可靠

3. 长期运行能力是关键

真正的 Agent:

不是一次 prompt

而是:

持续存在的软件系统

4. 并行 Agent 并不一定更强

更多 Agent:

≠ 更高正确率

反而可能:

  • 更混乱
  • 更难维护
  • 更容易失败

5. Durable Execution 是未来

未来 Agent 核心能力:

  • checkpoint
  • recovery
  • persistent memory
  • handoff
  • verification
  • supervision

十、一个简化版 Factory 架构图

                    ┌─────────────────┐
                    │ Human Supervisor │
                    └────────┬────────┘

                    ┌────────▼────────┐
                    │ Mission Control │
                    └────────┬────────┘

          ┌──────────────────┼──────────────────┐
          │                  │                  │
 ┌────────▼──────┐  ┌────────▼──────┐  ┌────────▼──────┐
 │ Planner Agent │  │ Worker Agent  │  │Verifier Agent │
 └────────┬──────┘  └────────┬──────┘  └────────┬──────┘
          │                  │                  │
          └──────────────────┼──────────────────┘

                  ┌──────────▼──────────┐
                  │ Durable Mission State│
                  └──────────┬──────────┘

                  ┌──────────▼──────────┐
                  │ Recovery / Resume    │
                  └──────────────────────┘

十一、对 AI Agent 开发者的启发

如果你在做:

  • Coding Agent
  • AI IDE
  • AI Automation
  • Autonomous Workflow
  • Multi-Agent Systems

这个 Talk 非常值得研究。

尤其要关注:

不要只关注:

prompt engineering

而应该关注:

runtime engineering

真正难的是:

  • state
  • recovery
  • verification
  • orchestration
  • durability

而不是:

让模型再聪明一点

十二、一句话总结

Multi-Agent 的真正价值, 不是”更多 Agent”, 而是”让 AI 能长期稳定完成复杂任务”。