Anthropic 发布 Claude Opus 4.7:编程基准大幅提升,长上下文与网络检索出现退步
Anthropic 正式推出 Claude Opus 4.7,在软件工程、视觉精准度等基准上较上代有显著提升,但长上下文和网络深度检索能力出现明显下滑。官方同步承认存在能力更强但仅限九家合作伙伴使用的 Claude Mythos Preview,并对迁移用户提示多项破坏性 API 变更。
Anthropic 发布 Claude Opus 4.7,定价维持与上代相同水平(输入 $5/百万 token,输出 $25/百万 token)。在软件工程基准方面,SWE-bench Verified 得分从 80.8% 升至 87.6%,官方称为当前公开可用模型第一;SWE-bench Pro 从 53.4% 升至 64.3%,CursorBench 从 58% 升至 70%。视觉能力方面,XBOW 视觉精准度基准从 54.5% 大幅升至 98.5%,最大图像分辨率从约 115 万像素提升至约 375 万像素,模型坐标与实际像素实现 1:1 对应,消除了 computer use 场景中的手动缩放换算需求。
与此同时,部分能力出现退步:MRCR v2 @1M 长上下文基准从 78.3% 降至 32.2%,下跌约 46 个百分点;BrowseComp 网络深度信息检索从 83.7% 降至 79.3%,低于 GPT-5.4 Pro(89.3%)和 Gemini 3.1 Pro(85.9%)。
Opus 4.7 采用新 tokenizer,相同输入文本会产生约 1.0–1.35 倍 token 数量。新增 xhigh effort 档位,Claude Code 已将默认档位更新为 xhigh。task budgets 功能进入公测,开发者可设置最低 20K token 预算并实时查看剩余额度。Claude Code 新增 /ultrareview 命令,Pro 和 Max 用户每月赠送 3 次免费使用;auto 模式从 Enterprise 专属扩展至 Max 用户。
对从 Opus 4.6 迁移的开发者,存在三项破坏性变更:Extended Thinking Budgets 参数已移除(传入返回 400 错误)、temperature/top_p/top_k 等采样参数已移除、默认输出不再包含推理 token 摘要(需显式设置 display: summarized)。Claude Code 缓存 TTL 也从一小时缩短至五分钟。
模型可通过 Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 及 GitHub Copilot 访问,API 模型 ID 为 claude-opus-4-7。
安全方面,Anthropic 表示在训练阶段主动削减了 Opus 4.7 的网络安全攻击能力,并上线实时护栏系统,合法安全从业者需申请加入 Cyber Verification Program。官方公告明确表示将通过 Opus 4.7 的实际部署观察护栏效果,再决定是否推广至 Mythos 级别模型。
此次发布同步披露了 Claude Mythos Preview 的存在,该模型仅对 Apple、Google、Microsoft、Nvidia、Amazon、Cisco、CrowdStrike、JPMorgan Chase、Broadcom 九家合作伙伴开放,普通开发者和用户无法使用。Anthropic 官方公告中明确表示 Opus 4.7 能力不如 Mythos Preview。
解读
此次发布有几个值得关注的结构性信号。其一,Anthropic 在旗舰模型发布公告中主动声明存在能力更强但不对外开放的版本,这在行业内属于罕见做法,实质上将产品线分为「公开最强」与「合作伙伴专属」两个层级,对普通开发者的能力预期管理产生直接影响。其二,长上下文基准 MRCR v2 @1M 下跌 46 个百分点幅度较大,但官方公告未对此作出专项解释,开发者在依赖超长上下文场景时需自行评估实际影响。其三,新 tokenizer 带来的 token 膨胀(最高 1.35 倍)在定价不变的前提下意味着相同任务的实际成本可能上升,具体影响因使用内容类型而异。其四,三项破坏性 API 变更集中出现,对已在生产环境使用 Opus 4.6 的团队存在迁移成本,需在升级前逐项核查。合作伙伴反馈数据(如 Rakuten 3 倍任务量、Factory 10–15% 成功率提升)均为自述数据,未经独立验证,参考时需保留一定余量。
相关币种
- 未绑定币种
