Claude Managed Agents 新功能：做梦、结果评估和多 Agent 编排

今天我们在 Claude Managed Agents 中推出做梦功能作为研究预览。做梦通过审查过去的会话来发现模式并帮助 Agent 自我改进，从而扩展了记忆。我们还在向使用 Managed Agents 的开发者提供结果评估、多 Agent 编排和 Webhook。这些更新共同使 Agent 在最少引导下更能处理复杂任务。

用做梦构建自我改进的 Agent

做梦是一个计划流程，审查你的 Agent 会话和记忆存储，提取模式，并整理记忆，使你的 Agent 随时间推移而改进。你决定想要多少控制：做梦可以自动更新记忆，或者你可以在更改生效之前审查它们。

做梦发现单个 Agent 自己看不到的模式，包括重复的错误、Agent 趋同的工作流，以及团队共享的偏好。

提供更好的结果

通过结果评估，你编写描述成功样子的评分标准，Agent 朝它努力。一个单独的评分器在自己的上下文窗口中根据你的标准评估输出，因此不受 Agent 推理的影响。当有问题时，评分器指出需要更改什么，Agent 再做一次。

在测试中，结果评估将任务成功率比标准提示循环提高了多达 10 个百分点，在最难的问题上获得最大的提升。

用多个 Agent 处理复杂任务

当单个 Agent 无法很好地完成太多工作时，多 Agent 编排让一个主 Agent 将工作分解为多个部分，并将每个部分委派给具有自己的模型、提示和工具的专家。

团队正在构建什么

Harvey 使用 Managed Agents 协调复杂的法律工作。通过做梦，他们的 Agent 记住了会话之间学到的东西。完成率提高了约 6 倍。
Netflix 平台团队构建了一个分析 Agent，使用多 Agent 编排并行分析批次并只浮现值得行动的模式。
Spiral by Every 使用多 Agent 编排和结果评估来驱动写作 Agent。使用结果评估对照编辑原则和用户声音的评分标准来强制质量。

入门指南

做梦以研究预览版提供，结果评估、多 Agent 编排和记忆以公开测试版提供。要开始使用做梦，请在此申请访问。