编程 Agent,可能是软件开发史上最昂贵的错误之一

精选资讯2周前发布 小Lu说
2,988 0
编程 Agent,可能是软件开发史上最昂贵的错误之一

“我敢断言:把 AI Agent 引入软件开发,将会成为这个行业历史上代价最惨重的错误之一。”说出这句话的人,是 George Hotz。

17 岁时,他成为全球第一个破解 iPhone 的黑客;后来又成功逆向工程 PlayStation 3,甚至因此被 Sony 告上法庭。再后来,他创办了自动驾驶公司 comma.ai,成为硅谷最具争议、也最具传奇色彩的技术人物之一。过去六个月里,Hotz 几乎试遍了市面上所有主流 AI 编程 Agent。他用它们为开源深度学习框架 Tinygrad 编写代码,用它们逆向分析 USB 转 PCIe 芯片;尝试过不同模型、不同 Harness、不同提示词,也反复调整过工作流。而最终,他得出了一个相当悲观的结论。

上周,他将自己的思考写成了一篇博客:《永恒的 Sloptember》。在文中,他提出一个极具争议的观点:

大规模采用 AI 编程 Agent,最终很可能以灾难收场。

Karpathy 看见革命,Hotz 看见灾难

Hotz 的核心论点非常直接:Agent 不是程序员。

他说:

Agent 不会编程。而更糟糕的是,我们正在越来越难意识到这一点。

在他看来,大语言模型本质上是一种高度复杂的统计系统,它们被训练来模仿“程序员写代码”的分布,而不是真正理解软件工程。随着模型能力不断增强,它们生成的代码并没有变得可靠,只是变得更像正确答案。换句话说:错误没有消失,只是隐藏得越来越深。这恰恰是最危险的地方。

而就在五天前,另一位 AI 圈重量级人物——Andrej Karpathy——刚刚加入 Anthropic,并公开表示:AI Agent 已经彻底改变了软件开发。于是,行业出现了一幅耐人寻味的画面。一边是 Karpathy 看见革命。另一边是 Hotz 看见灾难。两人都拥有足够耀眼的履历,两人的判断却几乎站在光谱两端。

六个月实战之后,他彻底失去了信心

事实上,Hotz 并非一开始就持反对态度。相反,他是真正长期、高频使用 Agent 的开发者。六个月里,他把 Agent 放进真实项目中反复测试,希望找到最有效的协作模式。

但最后,他发现一个规律:

每一次,我都本可以自己做得更快、更好。

在他看来,Agent 最大的问题是:它们总能快速完成前 90% 的工作,却永远卡在最后最关键的 10%。

他说:

Agent 会把所有进展提前堆到你面前,然后递给你一个老虎机拉杆,让你不断尝试,期待它把最后部分补完。但它永远差那么一点。

这种体验像极了赌博。你总觉得下一次生成就会成功。但真正完成产品的人,最后依然是你自己。

真正的问题不是能力,而是理解

面对“是不是你不会用”的质疑,Hotz 提前给出了回应:

不同模型、不同 Harness、不同提示词,我都试过。

问题不在这里。

他承认 AI 极其有价值。对于搜索、资料整理、快速原型开发而言,它甚至比 Google 更高效。但问题在于:软件工程从来不只是写代码。

软件工程更重要的是:

  • 理解系统
  • 维护系统
  • 重构系统
  • 发现隐藏风险
  • 管理复杂性

而这些恰恰是 Agent 最薄弱的部分。

Hotz 真正担心的,不是自己失业

许多人认为,程序员批评 AI,是因为担心被取代。Hotz 并不认同。

他说:

Google 的 AFL 找到的 Bug 比任何程序员都多。

国际象棋和围棋 AI 早已全面超越人类。但人们并没有因此放弃下棋。所以问题从来不是“机器比人强”。

问题是:

当所有人都开始依赖 Agent 时,整个行业会发生什么。

高绩效团队和大型组织,会走向两个不同方向

过去半年,Hotz 观察了大量开发者使用 Agent 的方式。

他发现:

优秀工程师普遍具备一个共同特征:他们拥有极强的纠错能力。他们知道什么时候该信任 AI。也知道什么时候应该彻底推翻 AI 的结果。

更重要的是:

他们依然会认真阅读、理解和验证每一行代码。但大型组织往往不是这样。

在组织规模扩大之后:

  • 反馈循环变慢
  • 责任边界模糊
  • 审查质量下降
  • 技术标准不一致

于是最危险的事情发生了:那些原本能力最弱的人,反而能够借助 Agent 产出十倍甚至百倍数量的代码。

于是问题来了:

代码数量增加十倍,代码质量会提高吗?

Hotz 的答案是:不会。

恰恰相反。

一个“垃圾代码黄金时代”正在到来

Hotz 预测:Agent 会创造出历史上最多的代码。最多的应用。最多的新功能。但同时,也会创造出历史上最多的技术债。

他说:

我们即将迎来垃圾代码成吨涌出的黄金时代,以及高质量软件的黑暗时代。

从统计意义上看,Agent 生成的代码可能和人类代码极其相似。但从工程角度看,两者有一个根本区别:人类代码背后存在明确的思考过程。而 Agent 的代码只是概率分布的结果。过去,当开发者看到一段代码时,会默认作者曾经历过某种推理过程。今天,这个默认前提已经不成立。代码仍然看起来合理。但它可能以一种过去从未出现过的方式悄悄损坏。

连制造 AI 编程热潮的人,也开始担心失控

发出警告的并不只有 Hotz。打造 OpenClaw AI Agent 核心组件的两位工程师 Mario Zechner 和 Armin Ronacher,也公开表达了类似担忧。

他们创造了一个新词:Vibe Slop。

意思是:

开发者不再认真设计系统,而是不断让 AI 拼凑代码。最终获得一套看似能运行、实则脆弱不堪的软件。

Zechner 警告说:

基础设施正在崩溃,软件比过去更容易出现漏洞。

我们还能继续玩几个月,甚至几年,但最终一定会为此付出代价。

值得注意的是,他们并不是 AI 反对者。恰恰相反,他们本身就是 AI 编程工具的重要建设者。因此,他们的担忧更值得行业警惕。

AI 的成本,正在成为新的问题

如果说 Hotz 和 Zechner 担心的是软件质量。那么 Uber 高管们担心的则是另一件事:成本。Uber COO Andrew Macdonald 最近透露:公司内部已经开始认真审视 AI Token 消耗问题。

原因很简单:AI 使用量持续增长。但业务产出并没有同比增长。

他说:

我们无法证明 Token 增加了 25%,消费者获得的价值也增加了 25%。

当这条因果链无法建立时,AI 投入就很难继续合理化。甚至连英伟达应用深度学习副总裁 Bryan Catanzaro 都承认:在他的团队中,AI 的计算成本已经高于员工成本。


结语

真正的问题从来不是:“人会写烂代码,AI 也会写烂代码,两者有什么区别?”区别在于——过去,即便是一段糟糕的代码,作者心里至少有一个粗糙的心智模型。他知道自己为什么这样写。

而今天,大量 AI 生成的代码正在被快速提交、快速合并、快速上线。很多开发者并没有真正理解这些代码。他们只是看到:测试通过了。但问题在于,测试本身也可能是不完整的。坏代码并不新鲜。

真正新鲜的是:坏想法第一次拥有了工业化生产能力。它们能够以前所未有的速度变成 Commit、变成产品、变成线上系统。而理解、审查与责任,却没有同步加速。

有人说:“再等六个月,持续学习和长期记忆会解决这些问题。”也许会。但至少过去六个月的发展,并没有让 George Hotz 和 Mario Zechner 变得更加乐观。相反,他们开始越来越担心:当 AI 真正学会写代码之前,人类会不会先失去理解代码的能力。

© 版权声明

相关文章

暂无评论

none
暂无评论...