全球首个“AI写AI训练框架”出现:面壁正在用AI重写国产算力软件生态

精选资讯3周前发布 小Lu说
4,685 0

全球首个“AI写AI训练框架”出现:面壁正在用AI重写国产算力软件生态英伟达真正难以被替代的,并不是GPU硬件本身,而是其背后长达十余年积累的 CUDA 软件生态。

如今,这一“软件护城河”正在被挑战。

面壁智能正在尝试一件更激进的事:用 AI 直接重写 AI 的训练基础设施,让软件开发从“人类工程”变成“AI自动生成的工程体系”。

一、ForgeTrain:全球首个完全由 AI 编写的训练框架

近日,面壁智能发布了名为 ForgeTrain 的训练框架。

它的关键特点非常激进:

全球首个完全由 AI 编写、零人直接介入的生产级大模型训练框架。

该框架已经在华为昇腾系列芯片上完成 MiniCPM5-1B 的训练验证,并实现:

  • 整体训练速度提升约 10%
  • MiniCPM5-1B 预训练耗时约 3–5 天
  • 在英伟达 GPU 上,MiniCPM4-0.5B 预训练约 2 天完成

更重要的是,这不是“实验代码”,而是已经跑通真实训练流程的生产级系统。

二、核心思路:让 AI “现场生成训练框架”

ForgeTrain 的本质,不是优化一个固定框架,而是改变软件生成方式。

面壁的核心假设是:

当大模型的 coding 能力足够强,软件开发成本趋近于零时,通用框架不再是最优解。

相反,更优路径可能是:

  • 针对每个模型
  • 针对每种芯片
  • 针对每种训练任务

现场生成一套最优训练系统(on-demand framework)。

这也意味着,传统“通用训练框架时代”可能正在被改写。

三、AI写代码 + 人类设计Harness

ForgeTrain 的核心机制可以理解为:

AI负责写系统,人类负责设计“考场”。

这里的关键概念是 Harness(评测与约束系统)

简单理解就是:

  • 人类定义目标与约束
  • 搭建评测环境(Harness)
  • AI在闭环环境中不断生成代码并自我修正

整个过程类似一个自动化研发实验室:

  1. 从现有训练框架中提取关键指标,构建评测标准(Harness)
  2. AI基于这些标准生成“二进制一致”的训练框架
  3. 在约束中迭代优化,逐步提升性能并突破基准

目前 ForgeTrain 已经实现:

  • 多机多卡训练框架生成
  • 与 Megatron 结果一致
  • 在部分场景下训练速度优于 Megatron 约 10%

四、从“人写代码”到“AI修系统”

在传统训练框架中,人类工程师需要:

  • 写分布式训练逻辑
  • 优化算子
  • 管理显存与通信
  • 调整并行策略
  • 反复debug性能瓶颈

而在 ForgeTrain 模式中:

AI在闭环环境中自动生成代码,并通过评测系统自我修复错误。

人类的角色变成:

  • 设计规则
  • 定义约束
  • 监督结果

甚至在部分内存优化场景中,AI生成的代码在合理约束下表现出更低显存占用。

五、关键突破:AI已经可以“写训练框架”

面壁团队表示,ForgeTrain 已经完成一个重要验证:

  • 用它训练出的模型
  • 与 Megatron 训练结果在人评和机评上保持一致
  • 同时在性能上更优

这意味着它已经不是“代码生成实验”,而是:

可以稳定运行数天并完成完整模型训练的生产系统。

此外,该系统已经在 8B 模型上验证成功,并正在向 MoE 等更复杂模型扩展。

六、AI研发AI:下一代效率革命

过去几年,大模型进化主要依赖三件事:

  • 数据规模
  • 算力增长
  • 资本投入

但现在,这条路径正在变得越来越昂贵:

  • 高质量数据逐渐枯竭
  • GPU与电力成本上升
  • 规模扩展边际收益下降

全球首个“AI写AI训练框架”出现:面壁正在用AI重写国产算力软件生态

因此,一个新方向正在出现:

用 AI 提升 AI 研发效率(AI for AI Research)

如果 AI 能参与以下环节:

  • 代码生成
  • 训练框架设计
  • 算子优化
  • 数据生成
  • 实验迭代
  • 模型架构探索

那么整个研发周期可能被压缩 10倍到100倍

七、为什么“AI写AI”还没完全爆发?

问题并不是模型能力不够,而是:

AI研发系统本身缺少“可评测环境”。

在代码、数学、游戏等领域:

  • 有编译器
  • 有标准答案
  • 有胜负机制

但在 AI 研发中:

  • 没有统一评测标准
  • 任务复杂且不稳定
  • 成本极高

因此关键变成一句话:

能否把“AI研发”变成一个可评测系统?

这正是 Harness 的意义。


八、Harness:给AI造一个“考场”

Harness 本质是一个封闭系统,包括:

  • 环境
  • 工具链
  • 任务流程
  • 评分机制

AI在其中:

  • 不断执行任务
  • 根据反馈修正
  • 持续迭代能力

ForgeTrain 正是在做一件事:

为“AI生成训练框架”这一任务建立专用考场。

一旦评测系统成立,AI就可以在其中不断进化。


九、软件工程范式正在改变:从通用框架到“现场锻造”

传统软件工程依赖大型通用框架,例如:

  • Megatron
  • DeepSpeed
  • 各类统一训练系统

原因很简单:

人类写代码成本太高,所以必须“统一设计”。

但在 AI 编码成本趋近于零之后,这一逻辑正在失效:

未来可能变成:

  • 一个模型 → 一套框架
  • 一个芯片 → 一套优化系统
  • 一个任务 → 一次现场生成的软件

这就是面壁提出的:

Forge Engineering(锻造式工程)

其核心思想是:

不再追求通用,而是追求“按需生成最优解”。

全球首个“AI写AI训练框架”出现:面壁正在用AI重写国产算力软件生态

十、国产算力生态的另一条路径

一个更大的问题是:如何追赶英伟达生态?

英伟达的优势并不只是硬件,而是:

  • CUDA生态
  • 长期工程积累
  • 海量开发者优化经验

传统方案(如TVM)试图用规则优化适配所有硬件,但现实问题是:

  • 组合空间过大
  • 性能难以最优
  • 维护成本极高

而 AI 提供了一种新可能:

让AI成为“持续优化生态的开发者本身”。

面壁的目标是:

  • 用 AI 重写训练框架
  • 重写推理框架
  • 重写算子系统
  • 重写数据管线

最终实现:

当用户提出需求时,系统直接生成对应软件栈。

甚至团队提出一个目标:

到年底,重写一遍国产主流算力软件体系。

十一、未来方向:Human on the Loop

随着 AI 逐渐接管研发流程,人类角色正在变化:

  • 过去:Human in the Loop(人参与执行)
  • 现在:Human on the Loop(人监督系统)

未来研发可能变成:

  • AI自主运行研发系统
  • 人类只负责监控异常与调整方向

研发组织形态也可能随之改变。

十二、结语:软件工程正在进入“自动锻造时代”

ForgeTrain 的意义不只是一个训练框架,而是一个信号:

软件不再是“人写出来的”,而是“系统生成出来的”。

当 AI 可以:

  • 写框架
  • 优化算子
  • 构建训练系统
  • 自我评测与迭代

软件工程的本质就会发生改变:

从“工程师设计系统”,走向“系统自动生成系统”。

而 ForgeTrain,可能只是这个变化的起点。

© 版权声明

相关文章

暂无评论

none
暂无评论...