Opus 4.8 刚发布，Redis 之父质疑跑分：DHH 盛赞的 GPT-5.5，正在动摇“编码王座”

精选资讯3周前发布小Lu说

16,540 0

Opus 4.8 刚发布，Redis 之父质疑跑分：DHH 盛赞的 GPT-5.5，正在动摇“编码王座”

5 月 28 日深夜，Anthropic 正式发布旗舰模型 Claude Opus 4.8。

相比 Opus 4.7，这次升级的重点，已经不只是传统意义上的“模型跑分”，而是开始明显转向开发者真实工作流。

Anthropic 这次最核心的更新，集中在两个方向：

dynamic workflows
更便宜、更高速的 fast mode

前者，试图让 Claude 真正具备“大规模 agent 编排能力”；后者，则是在回应开发者越来越敏感的成本与吞吐问题。

而更值得注意的是——就在 Anthropic 高调展示 Opus 4.8 基准测试成绩的时候，Redis 作者 antirez 却公开质疑：这些跑分，真的代表真实编码体验吗？

与此同时，Ruby on Rails 作者 DHH 却在另一边疯狂称赞 GPT-5.5，甚至表示：

“自 Opus 4.5 之后，没有哪个模型像 GPT-5.5 一样，让我反复产生‘它居然已经强到这种程度了’的感觉。”

这场围绕“谁才是真正编码之王”的竞争，正在进入一个微妙阶段。

Opus 4.8 最大升级：让 Claude 开始“指挥 agents”

这次 Opus 4.8 最重要的新能力，是 dynamic workflows。

简单来说，它允许 Claude 自动编写 JavaScript workflow 脚本，再由运行时去调度大量 subagents 并行工作。

这意味着，Claude 不再只是一个“回答问题的聊天机器人”，而开始变成一个真正的任务调度系统。

在一次运行中：

最多支持 16 个 agents 并发
总 agents 数量上限达到 1000 个

Claude 会先拆解任务，再把不同子任务分配给不同 agents：

有的负责执行
有的负责验证
有的负责反驳结果
有的负责 review

整个过程会持续迭代，直到答案逐渐收敛。

更关键的是：

任务规划不再塞进上下文窗口，而是被转移到了 workflow 脚本里。中间结果保存在变量中，而不是疯狂消耗 context。

这实际上是在解决当前 AI agents 最大的问题之一：“上下文越来越长，任务却越来越不稳定。”

Anthropic 这次，本质上是在把 agent orchestration 从 Prompt Engineering，推进到 Runtime Engineering。 Opus 4.8 刚发布，Redis 之父质疑跑分：DHH 盛赞的 GPT-5.5，正在动摇“编码王座”

Claude 正在从“聊天 AI”，变成“后台操作系统”

Anthropic 还展示了一个非常激进的案例：Bun 团队使用 dynamic workflows，将 Bun 从 Zig 大规模迁移到 Rust。

整个过程：

生成约 75 万行 Rust 代码
通过 99.8% 测试套件
从第一次 commit 到 merge，仅用了 11 天

数百个 agents 并行工作。每个文件甚至还配备两个 reviewer agents。这已经不是简单的“AI 辅助编码”。

而是：

AI 开始接管软件工程流水线。从某种程度上说，Anthropic 想做的，已经不只是一个更强的模型，而是一个 AI 软件开发运行时。

新增“思考强度控制”：AI 开始出现“推理档位”

Opus 4.8 的第二个重点，是用户终于可以控制 Claude 的“思考强度”。

Anthropic 的逻辑很直接：

想要更强答案？
→ 增加推理资源
想要更快响应？
→ 降低思考深度

本质上，这相当于给模型增加了“性能模式”。

高强度模式下：

Claude 会更频繁、更深入地进行推理。

低强度模式下：

响应速度更快，同时额度消耗更慢。

对于现在越来越担心 AI “变相涨价”的用户来说，这个功能其实非常关键。

因为很多人已经明显感觉到：如今的大模型平台，正在通过“额度缩水”间接提高使用成本。

fast mode 降价：Anthropic 开始正面回应成本问题

第三个重点，是 fast mode 大幅降价。

在 fast mode 下：

Opus 4.8 输出速度约为普通模式的 2.5 倍。而价格相比 Opus 4.7，直接下降了约三分之二。

新的价格：

输入：每百万 token 10 美元
输出：每百万 token 50 美元

这意味着 Anthropic 正在试图把 Opus 推向更真实的生产环境，而不仅

仅停留在“顶级模型展示”。

因为真正的大规模 agent 系统，最先撞上的问题，从来不是能力，而

是：吞吐、延迟与成本。

Anthropic 开始强调另一个关键词：“诚实”

这次 Opus 4.8，还有一个非常耐人寻味的方向：Anthropic 正在越来越强调“模型诚实性”。

他们声称：

Opus 4.8 更少欺骗用户
更少配合滥用请求
更愿意承认自己不知道
更容易指出代码中的潜在问题

Anthropic 甚至表示：相比前代模型，Opus 4.8 “忽略自身代码缺陷”的概率下降约 4 倍。

这其实反映了 AI 行业一个越来越现实的问题：模型变聪明，已经不够了。

真正稀缺的能力，开始变成：

是否可靠
是否稳定
是否会误导用户
是否敢于承认错误

过去，大家拼的是 IQ。现在，开始拼“可信度”。

但真正引爆争议的，是 Anthropic 的基准测试

从官方跑分来看：Opus 4.8 在多个 agentic coding 基准中，已经超过 GPT-5.5 与 Gemini 3.1 Pro。

尤其在 agentic coding 项目中：

Opus 4.8：69.2%
GPT-5.5：58.65%
Gemini 3.1 Pro：54.2%

Opus 4.8 刚发布，Redis 之父质疑跑分：DHH 盛赞的 GPT-5.5，正在动摇“编码王座” 但问题在于：开发者社区的真实反馈，却并不完全一致。尤其最近，GPT-5.5 的编码口碑正在迅速升温。

DHH 就公开表示：GPT-5.5 是近一年里，第一次让他持续产生“难以置信”感觉的模型。也正因如此，Redis 作者 antirez 直接批评 Anthropic：

“这是一个重大战略错误。”

因为：当大量开发者已经明显感受到 GPT-5.5 编码能力极强时，Anthropic 却依旧拿基准测试强调自己更强，反而会让用户开始怀疑：“跑分和真实体验，到底哪个更可信？”

这实际上暴露了 AI 行业如今最大的矛盾之一：Benchmark 正在逐渐失去对真实体验的解释力。

Anthropic：正在从“定义行业”，变成“追赶 OpenAI”？

不少开发者开始出现一种微妙感觉：Anthropic 似乎正在慢慢失去过去那种“定义节奏”的气场。

有用户评价：Opus 4.8 依然是一个非常强的模型。但现在的 Anthropic，更像是在追赶 OpenAI，而不是引领行业。尤其 GPT-5.5 出现之后，这种对比开始越来越明显。

因为 OpenAI 现在最可怕的地方，已经不只是 benchmark，而是：真实开发者体感。而 AI 行业历史已经反复证明：最终决定市场格局的，从来不是 PPT，也不是跑分。而是：开发者到底愿不愿意每天打开它。

Opus 这一年：从“编码封王”到“额度争议”

回看过去一年，Anthropic 对 Opus 系列的定位，其实一直非常明确：“世界最强编码模型。”

从 Opus 4，到 4.5，再到 4.6、4.7，Anthropic 一直在强调：

agentic coding
长上下文
computer use
workflow automation

但与此同时，争议也越来越多：

长上下文价格暴涨
额度缩水
性能波动
模型稳定性下降
计费方式越来越复杂

很多开发者开始发现：模型能力确实越来越强。但使用体验，却未必越来越舒服。而 Opus 4.8，很明显正在试图修复这些问题。它不仅要证明：Claude 依然是顶级编码模型。

更要证明：Anthropic 仍然有能力继续参与下一轮 AI 平台战争。

结尾

Opus 4.8 的真正意义，可能不只是一次模型升级。它更像是 Anthropic 对未来 AI 方向的一次表态：下一阶段的大模型竞争，已经不只是“谁更聪明”。

而是谁能：

更稳定
更可靠
更低成本
更适合真实工作流
更像一个真正的软件系统

问题是：当 GPT-5.5 已经开始凭借真实编码体验动摇“编码王座”时，Anthropic 还能重新夺回定义行业节奏的话语权吗？

精选资讯 # Opus 4.8

文章版权归作者所有，未经允许请勿转载。

Agent正在把开发基础设施推向极限！GitLab盈利大涨后裁员350人，下一代Git重构计划启动

Opus 4.8 刚发布，Redis 之父质疑跑分：DHH 盛赞的 GPT-5.5，正在动摇“编码王座”

Opus 4.8 最大升级：让 Claude 开始“指挥 agents”

Claude 正在从“聊天 AI”，变成“后台操作系统”

新增“思考强度控制”：AI 开始出现“推理档位”

fast mode 降价：Anthropic 开始正面回应成本问题

Anthropic 开始强调另一个关键词：“诚实”

但真正引爆争议的，是 Anthropic 的基准测试

Anthropic：正在从“定义行业”，变成“追赶 OpenAI”？

Opus 这一年：从“编码封王”到“额度争议”

结尾

全球首个“AI写AI训练框架”出现：面壁正在用AI重写国产算力软件生态

Claude Skills (2026 更新版) - 资源指南

相关文章

Agent正在把开发基础设施推向极限！GitLab盈利大涨后裁员350人，下一代Git重构计划启动

谷歌Gemini接管安卓，Anthropic估值反超OpenAI

爆火北影节！3人仅用2000元，用AI拍出宣纸质感短片，普通人的电影梦终于不用靠“砸钱”了

GPT-Image-2杀疯了！自媒体配图彻底变天，一键告别“模板感”

暂无评论

热门精选