2026-04-21 19:20:31 北京时间

AI Agent 自主权边界争议：Anthropic 的审批设计与40万亿美元责任命题

围绕 Claude Code 的权限绕过参数与 Anthropic 自动模式设计，一篇分析文章提出 Agent 行为责任分级框架，并援引劳动力市场规模数据探讨 AI 代理系统的潜在责任归属问题。

Claude Code 提供了一个名为 --dangerously-skip-permissions 的参数，启用后可绕过原本需要人类介入的审批环节。文章作者 Ashwin Gopinath 指出，该参数不改变模型本身的能力边界，改变的是审批链路是否经过人类这一环节。

Anthropic 于2025年3月推出了"auto mode"（自动模式），定位为手动审批与危险开关之间的中间路径。在该模式下，每个动作在执行前由一个 Sonnet 4.6 分类器进行审核。Anthropic 官方数据显示，用户在手动模式下对93%的提示选择接受，这一数据被文章用于讨论人类审批的实际效用。Anthropic 同时建议用户在隔离环境中运行 auto mode。

文章援引了多个 Agent 系统连锁失败案例：加拿大航空聊天机器人案、Replit 删除生产数据库事件，以及2012年 Knight Capital 交易故障——后者在45分钟内造成约4.4亿美元损失。

在市场规模层面，文章引用 Gartner 数据称全球企业 IT 支出约为每年4万亿美元，并基于国际劳工组织数据估算，全球技能型、持证类及知识型劳动者总薪酬规模约为40万亿美元（已剔除低技能部分）。该估算值为作者自行推算，非官方统计结论，存在方法论层面的不确定性。

文章提出一个包含7个风险等级的 Agent 行为责任分级框架，覆盖从信息类（完全自动执行）到不可逆高风险类（需本人签字、冷静期及第二审核人）的行为谱系。

文章同时指出，Anthropic 的《Responsible Scaling Policy》与 Constitutional AI 工作主要约束训练阶段的模型行为，而非 Agent 层的自主性设置，两者在责任覆盖范围上存在结构性差异。

该文原标题为"Who Signs? The Anthropic Paradox and the $40 Trillion Choice"，作者为 Ashwin Gopinath，编译者为 Peggy，发布于 BlockBeats。

解读

这篇文章的核心张力在于：工具层的自主性设置（如权限绕过参数）与模型层的安全约束之间存在结构性脱节。Anthropic 的合规工作集中在训练阶段，但用户在部署侧可以通过参数配置实质性地改变人机审批关系，而这一层面目前缺乏对等的治理框架。auto mode 的引入是一种折中设计，但其分类器版本信息（Sonnet 4.6）尚无独立可核实的官方文档支撑。文章提出的7级责任框架更多是一种概念性倡议，而非已落地的行业标准；关于监管走向和保险行业反应的判断属作者预判，尚未有对应事实发生。40万亿美元这一数字的引用意在强调 AI 代理系统潜在的经济影响量级，但其估算方法存在不确定性，引用时需注意区分其性质。

AI Agent 自主权边界争议：Anthropic 的审批设计与40万亿美元责任命题

解读

相关币种

标签

AI Agent 自主权边界争议：Anthropic 的审批设计与40万亿美元责任命题

解读

相关币种

标签