AI Agent 自主权边界争议:Anthropic 的审批设计与40万亿美元责任命题
围绕 Claude Code 的权限绕过参数与 Anthropic 自动模式设计,一篇分析文章提出 Agent 行为责任分级框架,并援引劳动力市场规模数据探讨 AI 代理系统的潜在责任归属问题。
Claude Code 提供了一个名为 --dangerously-skip-permissions 的参数,启用后可绕过原本需要人类介入的审批环节。文章作者 Ashwin Gopinath 指出,该参数不改变模型本身的能力边界,改变的是审批链路是否经过人类这一环节。
Anthropic 于2025年3月推出了"auto mode"(自动模式),定位为手动审批与危险开关之间的中间路径。在该模式下,每个动作在执行前由一个 Sonnet 4.6 分类器进行审核。Anthropic 官方数据显示,用户在手动模式下对93%的提示选择接受,这一数据被文章用于讨论人类审批的实际效用。Anthropic 同时建议用户在隔离环境中运行 auto mode。
文章援引了多个 Agent 系统连锁失败案例:加拿大航空聊天机器人案、Replit 删除生产数据库事件,以及2012年 Knight Capital 交易故障——后者在45分钟内造成约4.4亿美元损失。
在市场规模层面,文章引用 Gartner 数据称全球企业 IT 支出约为每年4万亿美元,并基于国际劳工组织数据估算,全球技能型、持证类及知识型劳动者总薪酬规模约为40万亿美元(已剔除低技能部分)。该估算值为作者自行推算,非官方统计结论,存在方法论层面的不确定性。
文章提出一个包含7个风险等级的 Agent 行为责任分级框架,覆盖从信息类(完全自动执行)到不可逆高风险类(需本人签字、冷静期及第二审核人)的行为谱系。
文章同时指出,Anthropic 的《Responsible Scaling Policy》与 Constitutional AI 工作主要约束训练阶段的模型行为,而非 Agent 层的自主性设置,两者在责任覆盖范围上存在结构性差异。
该文原标题为"Who Signs? The Anthropic Paradox and the $40 Trillion Choice",作者为 Ashwin Gopinath,编译者为 Peggy,发布于 BlockBeats。
解读
这篇文章的核心张力在于:工具层的自主性设置(如权限绕过参数)与模型层的安全约束之间存在结构性脱节。Anthropic 的合规工作集中在训练阶段,但用户在部署侧可以通过参数配置实质性地改变人机审批关系,而这一层面目前缺乏对等的治理框架。auto mode 的引入是一种折中设计,但其分类器版本信息(Sonnet 4.6)尚无独立可核实的官方文档支撑。文章提出的7级责任框架更多是一种概念性倡议,而非已落地的行业标准;关于监管走向和保险行业反应的判断属作者预判,尚未有对应事实发生。40万亿美元这一数字的引用意在强调 AI 代理系统潜在的经济影响量级,但其估算方法存在不确定性,引用时需注意区分其性质。
相关币种
- 未绑定币种
