给 Agent 写评估:Anthropic Evals 方法论解读
19 分钟
解读 Anthropic 工程博客的 Agent 评估方法论:为什么 Agent 比传统软件更难测、三类评分器如何组合、不同 Agent 类型的测试差异,以及从 0 到 1 构建一套可靠 eval 的关键决策。
AI Agent Anthropic 解读
Managed Agents 设计解读:如何让 Agent 系统不被模型迭代淘汰
12 分钟
解读 Anthropic 工程博客文章,探讨如何通过虚拟化 agent 核心组件(session、harness、sandbox),设计出一个能适应模型能力持续提升的 agent 系统架构。
AI Agent Anthropic 解读
Harness 设计解读:Anthropic 如何让 Agent 自主完成六小时全栈开发
15 分钟
解读 Anthropic 工程师分享的多 Agent 架构实践:为什么单个 Agent 做不好长任务,如何借鉴 GAN 的思路设计生成-评估分离架构,以及模型变强之后 harness 应该怎么演化。
AI Agent Anthropic 解读