
“我敢断言:把 AI Agent 引入软件开发,将会成为这个行业历史上代价最惨重的错误之一。”说出这句话的人,是 George Hotz。
17 岁时,他成为全球第一个破解 iPhone 的黑客;后来又成功逆向工程 PlayStation 3,甚至因此被 Sony 告上法庭。再后来,他创办了自动驾驶公司 comma.ai,成为硅谷最具争议、也最具传奇色彩的技术人物之一。过去六个月里,Hotz 几乎试遍了市面上所有主流 AI 编程 Agent。他用它们为开源深度学习框架 Tinygrad 编写代码,用它们逆向分析 USB 转 PCIe 芯片;尝试过不同模型、不同 Harness、不同提示词,也反复调整过工作流。而最终,他得出了一个相当悲观的结论。
上周,他将自己的思考写成了一篇博客:《永恒的 Sloptember》。在文中,他提出一个极具争议的观点:
大规模采用 AI 编程 Agent,最终很可能以灾难收场。
Karpathy 看见革命,Hotz 看见灾难
Hotz 的核心论点非常直接:Agent 不是程序员。
他说:
Agent 不会编程。而更糟糕的是,我们正在越来越难意识到这一点。
在他看来,大语言模型本质上是一种高度复杂的统计系统,它们被训练来模仿“程序员写代码”的分布,而不是真正理解软件工程。随着模型能力不断增强,它们生成的代码并没有变得可靠,只是变得更像正确答案。换句话说:错误没有消失,只是隐藏得越来越深。这恰恰是最危险的地方。
而就在五天前,另一位 AI 圈重量级人物——Andrej Karpathy——刚刚加入 Anthropic,并公开表示:AI Agent 已经彻底改变了软件开发。于是,行业出现了一幅耐人寻味的画面。一边是 Karpathy 看见革命。另一边是 Hotz 看见灾难。两人都拥有足够耀眼的履历,两人的判断却几乎站在光谱两端。
六个月实战之后,他彻底失去了信心
事实上,Hotz 并非一开始就持反对态度。相反,他是真正长期、高频使用 Agent 的开发者。六个月里,他把 Agent 放进真实项目中反复测试,希望找到最有效的协作模式。
但最后,他发现一个规律:
每一次,我都本可以自己做得更快、更好。
在他看来,Agent 最大的问题是:它们总能快速完成前 90% 的工作,却永远卡在最后最关键的 10%。
他说:
Agent 会把所有进展提前堆到你面前,然后递给你一个老虎机拉杆,让你不断尝试,期待它把最后部分补完。但它永远差那么一点。
这种体验像极了赌博。你总觉得下一次生成就会成功。但真正完成产品的人,最后依然是你自己。
真正的问题不是能力,而是理解
面对“是不是你不会用”的质疑,Hotz 提前给出了回应:
不同模型、不同 Harness、不同提示词,我都试过。
问题不在这里。
他承认 AI 极其有价值。对于搜索、资料整理、快速原型开发而言,它甚至比 Google 更高效。但问题在于:软件工程从来不只是写代码。
软件工程更重要的是:
- 理解系统
- 维护系统
- 重构系统
- 发现隐藏风险
- 管理复杂性
而这些恰恰是 Agent 最薄弱的部分。
Hotz 真正担心的,不是自己失业
许多人认为,程序员批评 AI,是因为担心被取代。Hotz 并不认同。
他说:
Google 的 AFL 找到的 Bug 比任何程序员都多。
国际象棋和围棋 AI 早已全面超越人类。但人们并没有因此放弃下棋。所以问题从来不是“机器比人强”。
问题是:
当所有人都开始依赖 Agent 时,整个行业会发生什么。
高绩效团队和大型组织,会走向两个不同方向
过去半年,Hotz 观察了大量开发者使用 Agent 的方式。
他发现:
优秀工程师普遍具备一个共同特征:他们拥有极强的纠错能力。他们知道什么时候该信任 AI。也知道什么时候应该彻底推翻 AI 的结果。
更重要的是:
他们依然会认真阅读、理解和验证每一行代码。但大型组织往往不是这样。
在组织规模扩大之后:
- 反馈循环变慢
- 责任边界模糊
- 审查质量下降
- 技术标准不一致
于是最危险的事情发生了:那些原本能力最弱的人,反而能够借助 Agent 产出十倍甚至百倍数量的代码。
于是问题来了:
代码数量增加十倍,代码质量会提高吗?
Hotz 的答案是:不会。
恰恰相反。
一个“垃圾代码黄金时代”正在到来
Hotz 预测:Agent 会创造出历史上最多的代码。最多的应用。最多的新功能。但同时,也会创造出历史上最多的技术债。
他说:
我们即将迎来垃圾代码成吨涌出的黄金时代,以及高质量软件的黑暗时代。
从统计意义上看,Agent 生成的代码可能和人类代码极其相似。但从工程角度看,两者有一个根本区别:人类代码背后存在明确的思考过程。而 Agent 的代码只是概率分布的结果。过去,当开发者看到一段代码时,会默认作者曾经历过某种推理过程。今天,这个默认前提已经不成立。代码仍然看起来合理。但它可能以一种过去从未出现过的方式悄悄损坏。
连制造 AI 编程热潮的人,也开始担心失控
发出警告的并不只有 Hotz。打造 OpenClaw AI Agent 核心组件的两位工程师 Mario Zechner 和 Armin Ronacher,也公开表达了类似担忧。
他们创造了一个新词:Vibe Slop。
意思是:
开发者不再认真设计系统,而是不断让 AI 拼凑代码。最终获得一套看似能运行、实则脆弱不堪的软件。
Zechner 警告说:
基础设施正在崩溃,软件比过去更容易出现漏洞。
我们还能继续玩几个月,甚至几年,但最终一定会为此付出代价。
值得注意的是,他们并不是 AI 反对者。恰恰相反,他们本身就是 AI 编程工具的重要建设者。因此,他们的担忧更值得行业警惕。
AI 的成本,正在成为新的问题
如果说 Hotz 和 Zechner 担心的是软件质量。那么 Uber 高管们担心的则是另一件事:成本。Uber COO Andrew Macdonald 最近透露:公司内部已经开始认真审视 AI Token 消耗问题。
原因很简单:AI 使用量持续增长。但业务产出并没有同比增长。
他说:
我们无法证明 Token 增加了 25%,消费者获得的价值也增加了 25%。
当这条因果链无法建立时,AI 投入就很难继续合理化。甚至连英伟达应用深度学习副总裁 Bryan Catanzaro 都承认:在他的团队中,AI 的计算成本已经高于员工成本。
结语
真正的问题从来不是:“人会写烂代码,AI 也会写烂代码,两者有什么区别?”区别在于——过去,即便是一段糟糕的代码,作者心里至少有一个粗糙的心智模型。他知道自己为什么这样写。
而今天,大量 AI 生成的代码正在被快速提交、快速合并、快速上线。很多开发者并没有真正理解这些代码。他们只是看到:测试通过了。但问题在于,测试本身也可能是不完整的。坏代码并不新鲜。
真正新鲜的是:坏想法第一次拥有了工业化生产能力。它们能够以前所未有的速度变成 Commit、变成产品、变成线上系统。而理解、审查与责任,却没有同步加速。
有人说:“再等六个月,持续学习和长期记忆会解决这些问题。”也许会。但至少过去六个月的发展,并没有让 George Hotz 和 Mario Zechner 变得更加乐观。相反,他们开始越来越担心:当 AI 真正学会写代码之前,人类会不会先失去理解代码的能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...