机器学习

发布日期: 2026-06-12

文章字数: 7.1k

阅读时长: 28 分

阅读次数:

《Agent Harness Engineering: A Survey》阅读笔记

71 页 TMLR 综述论文，2026-05-14 投稿，9 位作者来自 CMU / Yale / Amazon 等。

本笔记为minimax m3阅读后直出，用户要求是总结 + 叙述性段落 + 论文原图。
论文：Junjie Li 等，《Agent Harness Engineering: A Survey》，2026。

一、这篇论文要回答什么问题

如果把大语言模型比作一颗越来越聪明的大脑，那么当它被要求”在真实世界里独立完成任务”时，包裹在它外面那整套基础设施——执行环境、工具协议、上下文管理、调度编排、可观测、评估、治理——才是决定它能不能干好活的真正关键。这篇 71 页的学术综述论文把这个直觉系统化了，并把它命名为 “Agent Harness Engineering”（Agent 驾驭层工程）——一个被 OpenAI、Anthropic、LangChain 在生产中用了两年、但学术界从未正式研究的领域。

论文的三个核心论断构成了全文骨架：第一，harness 是独立的系统层，长跑任务上可靠性的瓶颈约束是 harness 而非模型；第二，论文提出 ETCLOVG 七层分类法（Execution / Tool / Context / Lifecycle-Orchestration / Observability / Verification / Governance），把已有六组件框架扩展为七层，首次把 Observability 提升为独立架构层，并新增跨 model/system/organization 三级的 Governance；第三，论文用 PRISMA-style 方法学从 GitHub、survey、curated list、公司博客四源汇聚 171 个开源项目编码到七层中，并系统提炼 OpenAI / Anthropic / LangChain 三大厂商的生产经验。

理解这篇论文最大的价值不在任何一个新算法或新协议，而在于它给整个”agent 工程”领域装上了一套共同词汇。在此之前，”harness engineering”只是 OpenAI 工程博客（2026-02-11 发表的 Harness engineering: leveraging Codex in an agent-first world）里的口号；在此之后，它有了 academic citation、可以教学、可以写进论文。

二、为什么是 2026 年：harness 概念从工程口号到学术学科

理解这篇论文要先理解一个时间点：2026 年初，”harness engineering” 突然从一家公司的内部术语变成了行业共识。

2024-11-25：Anthropic 发布 Model Context Protocol (MCP)**，给 agent 调用工具提供了”AI 时代的 USB 接口”标准。一年之内社区建了数千个 MCP server，到 **2025-12-10 Anthropic 把 MCP 捐赠给 Linux 基金会。
2025-04-09：Google 发布 Agent-to-Agent (A2A) 协议，给 agent 之间互相协作提供标准；2025-06-23 Linux 基金会成立 A2A 项目，得到 100+ 厂商支持。
2025-04：OpenAI 开源 Codex CLI（终端编码 agent，2026 年 1 月已 67K stars）；同期 Mem0 发表 arXiv 论文 2504.19413 提出”可扩展长期记忆架构”。
2025-10：OpenAI DevDay 2025 宣布 Codex 正式 GA，并明确把”harness engineering”列入主题演讲。
2026-02-11：OpenAI 发布 Harness engineering: leveraging Codex in an agent-first world 工程博客，把 harness 概念从代码实践升级为公共术语。
2026-05-14：本文作为第一篇系统化综述投稿 TMLR。

从 2024-11 到 2026-05 仅仅 18 个月，”harness”从一个隐喻（来自马术，harness = 马具、驾驭具）变成一个学科。论文正好踩在学科确立的节点上。

三、论文的”图谱”——ETCLOVG 七层架构

论文把 agent harness 拆成 7 层架构。下面这张图是论文 Figure 2 的简化版，强烈建议先把图看完再读后面文字：

Figure 2: ETCLOVG 七层架构概览

论文 Figure 2 把七层画成一个有上下结构关系的体系：E / T / C / L 四层是”结构性支柱”**（它们构成 agent 本身），O 层提供系统级监控（横跨其他层），V 层提供跨组件的评估与反馈（横跨其他层），G 层治理与安全**作为最底层执行准入规则。

如果把 Figure 2 展开成细节图（论文 Figure 4），七层各自又细分为若干子类别——

Figure 4: 七层架构的细分类

论文 Figure 4 显示的细分中，几个关键观察：

E 层（执行环境） 拆成 7 个子类——通用管理沙箱、计算机使用 agent 基础设施、代码专用沙箱、框架集成运行时、浏览器评测环境、OS 级权限沙箱、沙箱抽象层。
O 层（可观测） 拆成 5 类：追踪/监控平台、agent 专用运维、成本追踪与优化、可靠性工程、统一可观测。
V 层（验证） 拆成 5 个子阶段：任务与基准锚定 → 执行前准备验证 → 受控执行与 trace 捕获 → 多层判断与失败归因 → 持续回归与部署反馈。这是论文的”5 阶段 task-to-feedback lifecycle”原创框架（见 Figure 12）。
G 层（治理） 拆成 5 类：权限模型与身份管理、生命周期钩子（H1-H4）、组件硬化、声明式宪法、审计基础设施。

四、三阶段工程演进：Prompt → Context → Harness

论文用 Figure 1 解释了为什么 harness engineering 必然在 2026 年出现——它是工程抽象层级的必然结果。

Figure 1: Prompt / Context / Harness 三阶段对比

Prompt Engineering（2022-2024） 是第一阶段：把模型的输入 prompt 文本调好（指令调优、Few-shot、推理模板）。这个阶段的工程范围是”单次文本输入到单次模型调用“。它假设”模型能处理一切”，所以工程的目标只是”怎么说服模型”。

Context Engineering（2025） 是第二阶段：当 agent 变长跑时，”模型看到什么”比”模型被说什么”重要得多。Karpathy 在 2025 年推广这个概念——把”单次输入”扩展到”跨多步的信息状态”。典型的 context engineering 包括 RAG、记忆管理、压缩、progressive disclosure。论文明确指出：harness engineering 包含 context engineering，不是替代。

Harness Engineering（2026） 是第三阶段：模型本身无法独立处理的所有”周边问题”——执行环境、工具协议、orchestration、监控、评估、治理——都被纳入”harness”这一层。Harness 是把模型从”能回答问题”变成”能在真实世界完成任务”的必要容器。论文 Figure 1 的最后一栏把 harness 拆成”基础设施 wrapper”和”execution control feedbacks”两块，前者是基础设施层，后者是反馈环——合起来就是”控制论”视角下的”前馈 + 反馈”闭环。

一个关键观察：后一阶段是前一阶段的超集而非替代。每个 harness 组件都编码”模型做不到某事”的假设；模型变强时这些假设会过时——这就是论文第 12 节”五大未解问题”中Harness 随模型进化而自适应简化（adaptive simplification）的核心。

五、每一层：核心洞见与代表项目

这一节按七层顺序展开，每层抓住一个最有代表性的洞见，并介绍该层的代表项目。

5.1 E 层 - Execution Environment：Sandbox 在 agent 时代承担 3 种职能

论文关于 E 层最有冲击力的论断是：沙箱在 agent 时代承担的不仅是 security 和 reproducibility，还有第三种职能——liveness。

传统沙箱的”安全 + 可复现”目标是软件工程老问题。但 agent 时代多出的 liveness 维度，是说：sandbox 让 agent 在 bounded region 内”自由行动”，把每个动作的弹窗授权转成会话级配置。**Anthropic 报告 Claude Code 引入 sandboxing 后权限弹窗减少 84%**——这就是 liveness 价值的最直观证据。

论文 Figure 6 展示了 E 层 7 个子类的代表项目——

Figure 6: E 层代表项目

几个值得记住的项目：

Daytona（72.4K stars）：用 Docker containers 实现 sub-90ms 冷启动（vs Docker 通常 2-5 秒），让”per-call sandbox”成为可能。这是 agent 时代的专用沙箱——为 AI 重新设计，不是改造传统云沙箱。
E2B（12.1K stars）：用 AWS Firecracker microVM 做云沙箱。
Anthropic Computer Use：旗舰商业 computer-use 实现，是该子类的标杆。
OpenHands Runtime：研究级”一站式”runtime，把 Docker + bash + IPython + Chromium + API server 装在一个镜像里。
SWE-ReX：跨云 sandbox 统一接口（Docker/Fargate/Modal/Daytona）。

E 层也有严肃的威胁面：论文引用 SandboxEscapeBench (Marchand 2026) 实测，前沿 LLM 在 Docker 容器中逃逸成功率 **15%-35%**——这不是”理论上能逃”，是”在嵌套沙盒 CTF 中实际能逃”。

5.2 T 层 - Tool Interface：协议按”集成边界”分类

T 层最有价值的不是某一个工具，而是协议分类学。论文 Table 1 把所有主流 agent 工具/接口标准按”集成边界”和四个能力轴排成矩阵——

Table 1: 工具/接口标准按集成边界分类

Table 1 显示了一个清晰的结论：**MCP 和 A2A 已经覆盖了 agent 工具层和 agent 间的全部”金标准”**。具体观察：

Function calling 只覆盖 Model↔Function 边界，能力最强但不可发现。
MCP（Anthropic 2024-11-25 发布）覆盖 Agent↔Capability 边界，是当前最可见的工具集成 substrate；JSON-RPC 线协议，类型化、运行时发现、支持长跑任务。
A2A（Google 2025-04-09 发布）覆盖 Agent↔Agent 边界，是 agent 间通信标准；JSON-RPC 线协议，类型化、运行时发现、支持长跑任务。
OpenAPI 是 HTTP API 描述标准，覆盖 Agent↔Capability 边界，类型化但不支持运行时发现。
AGENTS.md / AGENT.md（21K stars）覆盖 Agent↔Repo/env 边界，是仓库级 agent 指令文件的标准——Anthropic、OpenAI、Google、Cursor 普遍支持。

值得注意：没有单一协议能同时覆盖”工具”和”agent”两类——MCP 和 A2A 是互补关系：MCP 管”agent 怎么调工具”，A2A 管”agent 怎么调 agent”。这与论文 Table 1 的”行”对应（按集成边界）非常吻合。

5.3 C 层 - Context Management：长上下文不解决记忆问题

C 层最有冲击力的事实是：长上下文窗口不解决记忆问题。三个机制共同决定 context 是稀缺资源——

Quadratic attention：注意力计算是 O(n²)，n 翻倍 → 计算 ×4
U-shaped attention curve：模型对开头和结尾关注多，中间关注少（Liu et al. 2024 “Lost in the Middle”——20 篇文档中段放答案准确率掉 30%+）
Context rot：Hong et al. 2025 评测 18 个前沿模型，全部随输入增长退化；200K 上下文模型在 50K 就开始掉点

C 层的代表项目——

Figure 8: C 层代表项目

最有代表性的项目是 Mem0——arXiv 2504.19413 (2025-04-28)，由 Taranjeet Singh 等提出。Mem0 把”长期记忆”建模为 LLM 决策的 4 种操作：ADD（新建记忆）、UPDATE（丰富现有记忆）、DELETE（删除）、NOOP（无操作）。在 LOCOMO 基准上，Mem0 比 OpenAI 原生 memory 准确率高 26%、省 90% token；Python 包下载 1400 万+次，AWS Agent SDK 2025 独家选用。它的成功意味着 agent 工程的”上下文管理”正在从”模型自己处理”转向”专用层处理”。

C 层的另一关键洞察来自 KV-cache 经济学：Anthropic 缓存命中价 0.30/Mtok vs 未命中 3.00/Mtok，差 10 倍价。Manus 团队把 KV-cache hit rate 认定为”生产 Agent 最重要单一指标”。这意味着 agent 设计中”append-only context“（上下文只追加不修改）和”sub-agent isolation“（让子 agent 拿干净窗口做深度探索，只回 1-2k token 总结）这些设计模式不是”美学选择”而是”成本选择”。

5.4 L 层 - Lifecycle & Orchestration：从单 agent 到多 agent 到控制平面

L 层是论文中最大的子类（48 个项目），也是工程实践最丰富的层。

Figure 9: L 层代表项目

Figure 9 显示 L 层按”组织层级”分成三级：

单 agent 内循环（§6.2）：OpenCode（155.8K stars）、Claude Code（120.9K）、Gemini CLI（103.3K）、Codex CLI（80.4K）、Aider（44.4K）、SWE-agent（19.1K）。这一类的代表哲学是”少即是多”——只暴露 bash/read/write/grep 几个核心工具，让 agent 自己组合。
多 agent 编排（§6.3）：DeerFlow、AutoGen、LangGraph、OpenAI Agents SDK、DeepAgents。这一类走相反路线——planner/generator/evaluator 各司其职，靠分工换质量。
全生命周期管道（§6.4）：Vibe Kanban、Symphony、GitHub Agentic Workflows。这一类把 issue tracker + repo 作为 agent 工作的”控制平面”，人工审批成为流程一部分。

多 agent 编排的范式正在快速收敛：Anthropic 2025-2026 的工程博客提出 Planner-Generator-Evaluator 标准三 agent 角色，并借鉴 GAN 思想加 sprint contracts 防止自评偏见。Anthropic 2026c 实证：从 Opus 4.5 升 4.6 后，移除 sprint contract 和 context reset，成本从 $200 降到 $125，质量不变——这是”adaptive simplification”思想最有力的证据。

5.5 O 层 - Observability：89% 用可观测，52.4% 做评估

O 层最有冲击力的事实是 LangChain 2026 调查：89% 团队用可观测工具，只有 52.4% 做离线评估——能看 agent 做了什么但没系统判断”做得对不对”。

Figure 10: O 层代表项目

O 层最有技术含量的项目是 AgentSight——eBPF-based monitoring。eBPF 是 Linux 内核的”可编程探针”技术，可在 SSL 边界拦截 LLM 流量。AgentSight 用这个机制做框架无关、<3% CPU 开销、被攻陷 agent 也无法绕过的监控——这是从内核层而非应用层做可观测，安全性上一个数量级。

另一个工业级实践是 Dual-Pool Token-Budget Routing（Anthropic 2026a）：把 vLLM 集群拆成短/长上下文池，Azure 上减 31-42% GPU 小时，年省 $2.86M（A100 规模）。

O 层也面临 MAST 失败模式（Cemri 2025）——多 agent 系统 14 种失败模式，3 大类（系统设计、agent 间失配、任务验证）。这意味着 O 层不只是”看”——是”识别 14 种翻车方式”的诊断能力。

5.6 V 层 - Verification：5 阶段 task-to-feedback lifecycle

V 层是论文最有方法论贡献的部分——把”评估 = 打分”升级为”评估 = 质量控制回路”。

Figure 12: 5 阶段 task-to-feedback lifecycle

论文 Figure 12 把评估拆成 5 个阶段：

Task and Benchmark Grounding（任务与基准锚定）：定义任务（环境状态+可用工具+允许动作+约束+终止条件+成功标准）
Pre-execution Readiness Validation（执行前准备验证）：开跑前验证 sandbox、依赖、工具、上下文、权限、预算、打分器都对齐
Controlled Execution and Trace Capture（受控执行与 trace 捕获）：rollout 时记录 model output / tool call / state 变化 / error / retry / cost / latency
Multi-level Judgement and Failure Attribution（多层判断与失败归因）：outcome / trajectory / evaluator 三级评估 + 跨 harness 层归因
Continuous Regression and Deployment Feedback（持续回归与部署反馈）：评估结果变回归测试、监控信号、harness 改进反馈

关键洞察：V 层的设计反向喂给 L 层——评估机制奖励某些恢复循环、惩罚另一些，从而塑造 agent 行为。这与 L 层的设计是双向耦合的（harness coupling problem）。

代表项目（Figure 11）：

Figure 11: V 层代表项目

Promptfoo（20.9K stars）：eval-as-code 范式，把测试用例写进 YAML 自动跑
DeepEval（15.2K）、RAGAS（13.8K）、SWE-bench（4.9K）

5.7 G 层 - Governance：H1-H4 钩子 + 21.7% 幻觉包名

G 层是论文识别的”卡脖子短板”——Table 4 显示六大主流 agent（Codex、Gemini CLI、OpenHands、Browser Use、Nanobrowser、Skyvern）全部缺失 IFC（信息流控制）、身份管理、形式化验证。

Figure 13: G 层代表项目

G 层最有可操作性的概念是 H1-H4 生命周期钩子——

Figure 14: H1-H4 四个 hook points

Figure 14 显示了一个工具使用循环中 4 个 hook 位置：

Input → H1 → LLM → H2 → Tool → H3 → Context → ... → H4 (HITL) → Response

H1：验输入（防 prompt 注入）
H2：验动作（防越权）
H3：验工具返回（防数据污染/taint tracking）
H4：人类审批（高危动作人工 gate）

G 层最有名的开源项目是 LiteLLM（45.9K stars，gateway/proxy/guardrails）——把传统 API gateway 的所有能力（鉴权/限流/缓存/审计）平移到 LLM 时代。

Table 3 把治理机制映射到 7 大风险类（R1-R7）——

Table 3: 治理机制与风险类对应

G 层最让人警醒的事实是 Slopsquatting 攻击：开源模型 21.7% 会产生幻觉包名（Spracklen 2025），攻击者抢先注册 → 注入恶意代码。这意味着 agent 在安装依赖时本身就是攻击面。

六、跨层综合：三大 Trade-off

跨层综合是论文最有”智识密度”的部分。三个 trade-off 不是新发现，但被首次系统化。

6.1 成本-质量-速度三角

核心论断：质量不是标量目标；必须选”哪些风险值得花代价”、”哪些检查可异步/放回归集”、”每阶段值得捕获哪些遥测”。

具体权衡：更强 sandbox → 安全与可复现 ↑ 但启动延迟 + 成本 ↑；更丰富 context/memory → 任务连续性 ↑ 但 token + 检索开销 ↑；更深评估/可观测 → 诊断能力 ↑ 但迭代变慢 + 存储/标注/trace 处理成本 ↑。

最尖锐的数据点是 Anthropic 2026a 警示：基础设施配置本身能让基准分数偏移 6 个百分点（p<0.01）——成本与评估保真度强耦合。这意味着模型升级的”分数”是被 harness 配置放大的，所谓”模型更好”很多时候是”我们用更好的 harness 跑出来的”。

6.2 能力-控制权衡

核心论断：更”能干”的 harness = 更多授权 = 更大攻击面。这不是安全附加项，是设计主轴，贯穿工具 schema、context 策略、运行时权限、身份、审计、人审。

具体权衡：更大工具菜单 → 任务覆盖 ↑ 但选择错误 + prompt 注入面 ↑；持久记忆 → 长任务友好但来源/staleness/隐私风险 ↑；宽松沙箱 → 自主执行更有效但 blast radius（爆炸半径）↑。

真实案例：Anthropic 2026c 实验——放开 context reset 和 sprint contract 后，agent 自主性更强但成本翻倍。这印证了 capability-control 的硬性折中。

6.3 Harness 耦合问题（Harness Coupling Problem）

核心论断：层与层相互依赖 → 局部最优是脆弱的。A 在隔离下看着好，组合进整个控制环可能反而劣化。模型分数无法干净归因到模型本身（因为控制器 C_H 已经变了）。

具体例子：

E 改变 V 结果（包可用性、reset 语义、延迟、失败模式）
工具描述消耗 context 预算、塑造模型行为
可观测 trace 要成为治理证据需要同等粒度的身份/权限状态
V 设计反向喂给 L（奖励某些恢复循环、惩罚另一些）

方法论启示：harness 改动要作为系统级改动测试，不能把模型分数干净归因到模型。这就是为什么论文第 12 节把”Harness 随模型进化而自适应简化“列为五大未解问题之首。

七、OpenAI / Anthropic / LangChain 的生产经验精华

论文最有”行内情报”价值的部分是从三大厂商博客/演讲/工程文章中提炼的经验。

7.1 OpenAI：harness engineering 是工程口号

OpenAI 工程师在 2026-02-11 工程博客 Harness engineering: leveraging Codex in an agent-first world 中明确使用”harness engineering”作为术语。几个关键事实：

5 个月内小团队产出约 100 万行内部产品代码，无手写生产代码（OpenAI 2026a）——这不是个人生产力的提升，是组织级别的范式转移
Codex CLI（2025-04 开源，2026 年 1 月已 67K stars）走 stateless replay 路线——每次执行都从 prompt + 工具结果从头来，trace 完整可复现
Symphony 把 issue tracker + repo 作为 agent 工作的”控制平面”，分配、进度状态、验证 gate、review 边界都是 Codex 编排的显式部分
**Meta-Harness (Lee 2026)**：自动 harness 优化在 Terminal-Bench-2 上达到 **76.4%**，超越所有手工方案

OpenAI 的核心论文（2026a）证明：仅靠基础设施配置 + system prompt 重组 + 自验证 hooks 就能让 Terminal-Bench 2.0 从 52.8% 升到 66.5%——**+13.7 pp 提升来自 harness 改动**，而 GPT-5.2 模型升级在该 benchmark 上只带来 2-4 pp。

7.2 Anthropic：GAN 启发的三 agent 与 Managed Agents

Anthropic 在 harness 上的实践最深——可能因为他们认为 harness 是 Anthropic 的护城河之一。

Claude Code（2025-02 发布，120.9K stars）：终端编码 agent，Fewer but better tools 哲学——只暴露 bash/read/write/grep 几个核心工具。引入 sandboxing 后权限弹窗减少 84%。
GAN-inspired three-agent（Anthropic 2026c）：借鉴 GAN 的对抗式三 agent（planner / generator / evaluator）+ sprint contracts 防自夸。最反直觉的发现：从 Opus 4.5 升 4.6 后，移除 sprint contract 和 context reset，成本从 $200 降到 $125，质量不变——这就是 adaptive simplification 的最强证据。
Managed Agents（Anthropic 2026b）：把 brain（harness+LLM）/ hands（sandbox+tools）/ session（durable event log）三层解耦，**”Pets vs. Cattle” 化**——任何组件崩了都能自动重启恢复。
Long-Running Agent Harness（Anthropic 2025d）：总结 4 种长跑 agent 失败模式——① 试图一把搞定全任务 ② 过早宣布完成 ③ 跨 session 留下坏环境 ④ 不测试就标 done。

7.3 LangChain：89% 团队用可观测，52.4% 做评估

LangChain 作为 agent framework 的事实标准，在生产经验上有独特视角：

LangGraph 31.3K stars（图组合的 multi-agent runtime）、deepagents 22.3K（runtime/long-running）——图组合是 multi-agent 编排的主流范式。
LangChain 调查揭示 observability-evaluation gap：89% 团队用可观测工具，52.4% 跑离线评估。这意味着大多数团队能”看到”agent 做了什么但没系统判断”做得对不对”——这正是 V 层要解决的。

八、五大未解问题

论文最诚实也最有价值的地方是它不假装给出了全部答案。§12 列出的 5 大未解问题（实际是研究议程）：

8.1 硬化与扩展执行环境

SandboxEscapeBench 证明前沿模型能在现实配置下逃逸（15-35% 成功率）。防御工作碎片化，一容器一任务模式在万级并行下压力大。开放问题：让运行时 substrate 既可测又可组合；需要 prompt injection / 目标错位 / 组合放大的共同评测。

8.2 长跑 Agent 维持可靠状态

最深 context 问题不是”装更多 token”，而是长视野下工作状态与真实任务状态的对齐。反复 summarize/retrieve/compact/externalize 都会删除约束、扭曲优先级、保留过期假设。应把 context 管理重新建模为状态估计（state estimation）：每次压缩/检索/遗忘丢失多少任务相关信息？

8.3 从 Agent Traces 诊断失败

失败可能源自：模型推理、误导性工具 schema、sandbox 错配、stale context、flaky 测试、benchmark 模糊、judge 不稳定、orchestration 循环。Anthropic 2026a 证明基础设施设置能移动 benchmark 分数 6 pp。评估层要作为测量仪器来研究，不只是 leaderboard。

8.4 跨 Agent/Tool/Human 的标准化 Handoff

局部标准已有：MCP（工具）、A2A（agent 间）、OpenTelemetry（trace）。缺少跨层 handoff 契约：planner 交给 executor、agent 调工具、subagent 还控制、系统升级给人——交接应带意图/约束/权限/工件/provenance/预算/风险/trace 历史/未决决策。开放问题：定义足够丰富以保证安全恢复、足够简单以广泛采用的 handoff 协议。

8.5 Harness 随模型进化而自适应简化

假设 harness 单调变复杂是错的；每个干预都编码”模型不能做什么”的假设。因子 model × harness 评测可揭示：跨模型都帮的 / 只帮特定家族的 / 反转模型排名的。Anthropic 2026c 真实案例：原本对某个模型有用的 context reset，模型变强后可移除且省成本不降质量。核心机制：Meta-Harness（搜索 prompts/tools/control loops）、Natural-Language Agent Harnesses（把模块显式可消融）、TensorZero/Axon/AgentOps（成本感知运营）。终极目标：adaptive simplification——harness 持续追问”哪些控制还有必要”。

九、关键项目一览（按层归类，挑重要的）

论文附录 A 列出 171 个项目，下面挑每个层最值得记住的几个。

E - 执行环境

Daytona 72.4K ⭐（sub-90ms 冷启动，AI 时代专用沙箱）
E2B 12.1K（Firecracker microVM）
OpenSandbox 10.5K（阿里开源）
Anthropic Computer Use（旗舰商业）

T - 工具接口

MCP Servers 85.1K（MCP 生态 server 集合，Anthropic 2024-11）
AGENTS.md 21.0K（仓库级 agent 指令文件标准）
GitHub Spec Kit 92.9K（spec-driven workflows）

C - 上下文与记忆

Mem0 41K ⭐（长期记忆层事实标准，AWS Agent SDK 2025 独家选用）
claude-mem 72.8K ⭐（Claude Code 记忆层）
Trellis 7.2K（specs/memory/workflow）

L - 编排（最大子类）

OpenCode 155.8K ⭐（Anomaly 开源，sub-agents 标杆）
Claude Code 120.9K（Anthropic 旗舰）
Gemini CLI 103.3K（Google 旗舰）
Codex CLI 80.4K（OpenAI 旗舰，stateless replay 范式）
OpenHands 72.7K（研究级 runtime）
DeerFlow 65.4K（long-horizon/memory）
LangGraph 31.3K（LangChain 图工作流）
OpenAI Agents SDK 25.9K（handoff/workflows）

O - 可观测

Langfuse 26.7K ⭐（OpenTelemetry 兼容 LLM 追踪）
MLflow 25.8K（平台/监控/评估）
Opik 19.2K（Comet 旗下）
TensorZero 11.3K（成本优化）

V - 评估

Promptfoo 20.9K ⭐（eval-as-code 标杆）
DeepEval 15.2K
RAGAS 13.8K
SWE-bench 4.9K（GitHub issue 修复基准）
Terminal-Bench 2.2K（terminal/long-horizon）

G - 治理

LiteLLM 45.9K ⭐（最大治理工具——gateway/proxy/guardrails）
Kong 43.3K（gateway/policy/infra）
Archestra 3.6K（enterprise/guardrails）
Portkey 11.6K（gateway）

附录 B 6 个参考实现的 7 层覆盖矩阵

论文附录 B 详细剖析了 6 个旗舰 harness：

实现	E	T	C	L	V	G	特点
Claude Code	✓	✓	✓	✓		✓	终端编码；生产级闭源
OpenCode	✓	✓		✓			开源终端；plan/build/subagents
Codex CLI	✓	✓		✓	✓		无状态 replay 循环
OpenHands	✓	✓	✓	✓	✓		研究级可组合 SDK
SWE-agent	✓	✓		✓	✓		agent-computer interface
Symphony			✓	✓	✓	✓	持久控制平面 + issue tracker

关键观察：L 层全覆盖（编排是所有 harness 的核心），O 层 0/6 覆盖（可观测仍处于”作为独立层处理”的过渡期），G 层仅 2/6（治理仍是短板）。

十、给 Agent 工程师 / 研究者的一句话

“Harness engineering 是 2026 年 AI 工程的核心学科。模型升级带来 2-4 pp 的提升，harness 改动经常超过这个量级——这个数字本身就是该领域的全部论点。”

三个最值得带走的认知

第一，从”调 prompt”到”建平台”**。三阶段演进的终局不是”更好的 prompt”，而是”**可治理、可观测、可验证的运营系统“。Agent 平台是 harness 工程的下一个形态——tenancy、合规、计费、组织归属都成为 agent 系统的核心维度。这就是为什么 OpenAI 5 个月能写 100 万行代码——不是模型变聪明了，是 harness 让组织级协作成为可能。

第二，局部最优是脆弱的（Harness Coupling Problem）。prompt 改好、tool 改好、context 改好，组合进同一控制环可能反向。harness 改动要作为系统级改动测试，不能把模型分数干净归因到模型（控制器 C_H 已变）。论文把”评估层要作为测量仪器来研究”列为五大未解问题之一，意思是：今天我们还分不清”模型好不好”和”harness 好不好”。

第三，Harness 是有”保质期”的工程。Anthropic 2026c 实证——Opus 4.5 → 4.6 砍掉 sprint contract + context reset，省 37.5% 成本且质量不变。每个 wrapper/reset/verifier 都编码”模型不能做什么”的假设，模型变强时这些干预要被重新评估甚至移除。Adaptive simplification 才是 harness 工程的长期主义。

一个能立刻上手的 checklist

C 层：pre-load 必备内容，retrieve 条件内容，compact 临近饱和，spawn sub-agent 处理会污染主上下文的子任务
L 层：用 stateless replay 做 audit，用 stateful 做恢复
O 层：接 Langfuse / MLflow / OpenLLMetry；做 cost tracking；做 eBPF 监控 agent 实际流量
V 层：outcome / trajectory / evaluator 三级判断；用 Promptfoo / DeepEval / RAGAS 做 CI 评估
G 层：H1-H4 四点 hook；用 LiteLLM / Portkey 做 gateway；用 AGENTS.md 让 agent 知道边界

附录：关键数据点速查

数据	出处	含义
52.8% → 66.5% (Terminal-Bench 2.0)	Trivedy 2026	仅改 harness 提升 13.7 pp
76.4% (Terminal-Bench-2 自动 harness)	Lee 2026 Meta-Harness	超越所有手工方案
100 万行代码 / 5 个月	OpenAI 2026a	小团队 + agent
15-35% 沙箱逃逸率	SandboxEscapeBench 2026	前沿 LLM 在 Docker 容器
84% 弹窗减少	Anthropic Claude Code	sandboxing
26% / 90%	Mem0 vs OpenAI Memory	准确率/省 token
6 pp (p<0.01)	Anthropic 2026a	基础设施设置偏移 benchmark
21.7%	Spracklen 2025	开源模型包名幻觉率
31-42% GPU 小时节省	Dual-Pool Token-Budget	Azure vLLM 集群
98% 成本节省	FrugalGPT cascade	性能匹配 GPT-4
89% / 52.4%	LangChain 2026	可观测用 / 评估用
64-88% / 38%	AgentFixer 2026	检出率 / 解析错误
$200 → $125	Anthropic 2026c	Opus 4.5 → 4.6 砍 sprint contract + context reset
171 项目 / 0 失效	Table S1 2026-05-08	验证 0 失效链接
18 个月	2024-11 MCP → 2026-05 综述	行业从口号到学科的时间

参考资料

论文主页：Junjie Li 等，《Agent Harness Engineering: A Survey》，TMLR 投稿 2026-05-14
项目页：Awesome-Agent-Harness
OpenAI 关键博客：Harness engineering: leveraging Codex in an agent-first world，2026-02-11
MCP：Introducing the Model Context Protocol，Anthropic 2024-11-25
A2A：Announcing the Agent2Agent Protocol (A2A)，Google 2025-04-09
Mem0：Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory，arXiv 2025-04-28
Daytona：Daytona 官网
Claude Code：Claude Code: Anthropic’s Agent in Your Terminal
Codex CLI：OpenAI Codex CLI

笔记完。这篇论文的价值不在于提供答案——而在于给整个”agent 工程”领域装上了一套共同词汇。在 2026 年这个时间点，无论是 Agent 应用开发者、平台架构师、AI 投资人还是 ML 研究生，理解 ETCLOVG 七层、三大 trade-off、五大未解问题都是必要的。

Immortalqx

http://Immortalqx.github.io/2026/06/12/agent-harness-engineering/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Immortalqx !

LLM 大模型

本篇

《Agent Harness Engineering：A Survey》阅读笔记

2026-06-12 机器学习

LLM 大模型

为什么要预测 action？

2026-06-02 Robotics

具身智能

《Agent Harness Engineering：A Survey》阅读笔记

《Agent Harness Engineering: A Survey》阅读笔记

一、这篇论文要回答什么问题

二、为什么是 2026 年：harness 概念从工程口号到学术学科

三、论文的”图谱”——ETCLOVG 七层架构

四、三阶段工程演进：Prompt → Context → Harness

五、每一层：核心洞见与代表项目

5.1 E 层 - Execution Environment：Sandbox 在 agent 时代承担 3 种职能

5.2 T 层 - Tool Interface：协议按”集成边界”分类

5.3 C 层 - Context Management：长上下文不解决记忆问题

5.4 L 层 - Lifecycle & Orchestration：从单 agent 到多 agent 到控制平面

5.5 O 层 - Observability：89% 用可观测，52.4% 做评估

5.6 V 层 - Verification：5 阶段 task-to-feedback lifecycle

5.7 G 层 - Governance：H1-H4 钩子 + 21.7% 幻觉包名

六、跨层综合：三大 Trade-off

6.1 成本-质量-速度三角

6.2 能力-控制权衡

6.3 Harness 耦合问题（Harness Coupling Problem）

七、OpenAI / Anthropic / LangChain 的生产经验精华

7.1 OpenAI：harness engineering 是工程口号

7.2 Anthropic：GAN 启发的三 agent 与 Managed Agents

7.3 LangChain：89% 团队用可观测，52.4% 做评估

八、五大未解问题

8.1 硬化与扩展执行环境

8.2 长跑 Agent 维持可靠状态

8.3 从 Agent Traces 诊断失败

8.4 跨 Agent/Tool/Human 的标准化 Handoff

8.5 Harness 随模型进化而自适应简化

九、关键项目一览（按层归类，挑重要的）

E - 执行环境

T - 工具接口

C - 上下文与记忆

L - 编排（最大子类）

O - 可观测

V - 评估

G - 治理

附录 B 6 个参考实现的 7 层覆盖矩阵

十、给 Agent 工程师 / 研究者的一句话

三个最值得带走的认知

一个能立刻上手的 checklist

附录：关键数据点速查

参考资料

你的赏识是我前进的动力