所有标签

#Anthropic

共 3 篇文章

给 Agent 写评估:Anthropic Evals 方法论解读

19 分钟

解读 Anthropic 工程博客的 Agent 评估方法论:为什么 Agent 比传统软件更难测、三类评分器如何组合、不同 Agent 类型的测试差异,以及从 0 到 1 构建一套可靠 eval 的关键决策。

AI Agent Anthropic 解读

Managed Agents 设计解读:如何让 Agent 系统不被模型迭代淘汰

12 分钟

解读 Anthropic 工程博客文章,探讨如何通过虚拟化 agent 核心组件(session、harness、sandbox),设计出一个能适应模型能力持续提升的 agent 系统架构。

AI Agent Anthropic 解读

Harness 设计解读:Anthropic 如何让 Agent 自主完成六小时全栈开发

15 分钟

解读 Anthropic 工程师分享的多 Agent 架构实践:为什么单个 Agent 做不好长任务,如何借鉴 GAN 的思路设计生成-评估分离架构,以及模型变强之后 harness 应该怎么演化。

AI Agent Anthropic 解读