Anthropic首份AI智能体报告：软件工程占调用量近半，自主运行时长显著提升

Anthropic于2月18日发布首份AI智能体行为实测报告，通过对Claude Code及公共API的数百万次人机交互进行分析，揭示了AI智能体的自主程度、风险分布与监督模式。

核心发现：

自主运行时长显著提升：Claude Code的单次连续自主运行最长时长（第99.9百分位）在2025年10月至2026年1月期间，从不足25分钟上升至超过45分钟，中位数时长维持在约45秒。
任务成功率翻倍，人工干预减少：在2025年8月至12月间，Claude Code处理最具挑战性任务时的成功率翻倍，平均每个会话的人工干预次数从5.4次降至3.3次。
经验用户偏好“全自动模式”：使用次数超过750次的资深用户中，超过40%的会话启用了全自动模式。
模型主动限制自主性：在复杂任务中，模型因不确定而主动暂停、请求澄清的次数，是人类主动打断次数的两倍以上，显示出内置的安全机制。
应用领域高度集中：软件工程占所有智能体活动的近50%，而其他垂直领域的渗透率目前极低。高风险操作在当前占比极小。

Anthropic的建议：

报告建议业界应投资于部署后的监控基础设施，训练模型更好地识别自身的不确定性，并设计支持用户进行有效监督的交互工具，以促进AI智能体安全、可靠地发展。

发表评论

发表评论