Claude Opus 4.1深夜狙击OpenAI,SWE-bench编程卷到74.5%,预告更强大模型 - 智东西
原文

2025-08-06 10:10
149
Anthropic正式发布了Claude Opus 4.1模型,该模型在智能体工具调用、智能体编程与多语言问答能力上全面超越OpenAI o3,并在SWE-bench Verified上的顶级编码性能提升至74.5%。新模型现已面向付费Claude用户及Claude Code提供,同时登陆API、Amazon Bedrock和Google Cloud的Vertex AI平台。定价与Opus 4保持一致,输入15美元/百万token,输出75美元/百万token。Opus 4.1在GitHub上的多文件代码重构性能进步显著,但在视觉推理和数学能力上仍与OpenAI o3和Gemini 2.5 Pro有一定差距。Anthropic还计划在未来数周内推出更大幅度的改进。

全部评论