拒绝“蒸馏依赖”,微软发布自研 MAI-Thinking-1:对标 Claude Opus 4.6,宣称完全从零训练

精选资讯2周前发布 小Lu说
11,985 0
拒绝“蒸馏依赖”,微软发布自研 MAI-Thinking-1:对标 Claude Opus 4.6,宣称完全从零训练

“我们现在已经基本追平了几个月前的最先进水平。”

在 Build 大会前夕,微软 AI 执行副总裁兼 CEO Mustafa Suleyman 在采访中表示。

在刚刚举行的 Build 大会上,微软正式发布了一系列自研 AI 模型,标志着其在基础模型研发上的一次重要跃迁。值得注意的是,微软直到去年才推出首批自研模型,在此之前,其核心 AI 能力长期依赖 OpenAI

甚至有业内观察人士将此次大会称为微软的“AI 独立日”。

与此同时,Suleyman 也在大会上系统阐述了微软对 AI 的整体思考。他强调,微软的 AI 战略始终以“增强人类能力”为核心,而非替代人类,并提出公司正在构建一种“人本主义超级智能(humanist superintelligence)”。

整体来看,这次 Build 大会释放出一个清晰信号:微软正在从“AI 应用整合者”,转型为“全栈 AI 基础设施与基础模型提供者”。

完全从零训练:微软推出首个高级推理模型 MAI-Thinking-1

本次微软 MAI 模型家族的核心,是其首个高级推理模型 MAI-Thinking-1

据官方介绍,该模型属于“中等规模模型”,具备 350 亿活跃参数,128K 上下文窗口,总参数规模约 1 万亿,在性能与效率之间取得平衡,并特别强调低 token 成本。

微软 GitHub 首席运营官兼开发者市场负责人 Kyle Daigle 在媒体沟通会上表示:

“MAI-Thinking-1 的设计目标,是处理复杂的多步骤指令、长上下文推理以及代码生成任务。”

在过去一年中,高级推理模型赛道主要由 OpenAI o 系列、Google Gemini 推理模型,以及 Anthropic Claude 的扩展思考能力主导。同时,开源阵营的 DeepSeek R1 也在 2025 年初短暂冲击了这一格局。

MAI-Thinking-1 是微软在该赛道的最新入局者。

在多项基准测试中,该模型展现出接近头部模型的能力:

  • 在 SWE-Bench Pro 编程基准测试中,对标 Claude Opus 4.6
  • 在 AIME 2025 数学测试中达到 97.0%
  • 在 AIME 2026 中达到 94.5%
  • 在微软内部盲测对比中,用户偏好甚至超过 Claude Sonnet 4.6
拒绝“蒸馏依赖”,微软发布自研 MAI-Thinking-1:对标 Claude Opus 4.6,宣称完全从零训练

目前微软尚未公开完整训练方法,例如是否采用“可验证奖励强化学习”、过程奖励建模等技术路径。

但官方明确否认了一点关键“混合来源”:

模型训练数据中,不包含任何其他 AI 系统生成的概率分布或输出序列。

微软强调,MAI-Thinking-1 完全从零开始训练,使用企业级、合规授权且“干净”的数据集,并在预训练阶段剔除了 AI 生成内容,也未使用任何第三方模型的蒸馏数据。

换句话说,该模型刻意避免“从其他模型学习”,而是尝试让系统在原始数据上直接学习能力。

这一点,也被微软视为其面向企业市场的重要差异化优势。

对于医疗、金融、国防等对数据合规要求极高的行业而言,“训练来源可追溯”甚至可能比性能指标更关键。

MAI 模型家族:迈向多模态生态系统

除 MAI-Thinking-1 外,微软还同步发布了六款 MAI 系列模型,覆盖图像、语音与代码等多个方向。

其中包括:

MAI-Code-1-Flash

面向智能体编程场景的高效模型,深度集成 GitHub Copilot 与 Visual Studio Code,参数规模约 50 亿,在性能对标 Claude Haiku 的同时显著降低成本。

MAI-Image-2.5

支持高质量文生图与图像编辑能力,其 Arena 评分已超过 Nano Banana Pro,并提供 Flash 高效版本。

MAI-Transcribe-1.5

当前最强语音转录模型之一,达到 SOTA 水平:

  • 转录速度提升至同类模型的 5 倍
  • 支持 43 种语言及专业术语识别

MAI-Voice-2

提供自然语音生成能力,覆盖 15 种语言,并支持少样本声音克隆,同时内置安全与滥用防护机制。其轻量版本 MAI-Voice-2-Flash 也将在后续发布。

未来,这些模型将统一接入 Microsoft Foundry 以及专用环境 MAI Playground,并在 Azure AI Foundry 上开放使用。

微软同时表示,开发者将首次可以在部分模型上进行权重级别的自定义微调。

“全栈向上爬升”:统一训练体系的底层逻辑

值得注意的是,微软强调整个 MAI 模型家族共享同一训练哲学:

所有模型均基于“从零开始的向上爬升(hill-climbing)策略”,不依赖蒸馏方法,同时共享统一的数据规范、训练基础设施与评估体系。

这意味着微软正在尝试构建一个从底层模型到应用层完全自洽的 AI 技术栈。

Scout:基于 OpenClaw 的企业级智能体

2026 年初,“OpenClaw”在 AI 圈迅速走红,而微软此次也推出了基于该框架构建的智能体系统——Scout

Scout 可以在 Microsoft 365 生态中持续运行,跨应用完成任务,包括:

  • Teams
  • Outlook
  • OneDrive
  • SharePoint

它能够访问聊天记录、邮件、日历与联系人数据,并通过 Teams 或浏览器执行操作,同时支持通过模型上下文协议(MCP)连接外部应用。

微软企业副总裁 Omar Shahine 在博客中表示:

“该智能体在后台持续运行,理解你在各个系统中的工作方式,并在无需提示的情况下主动采取行动。”

Scout 可用于自动处理会议安排、任务协调,甚至识别潜在风险,例如“决策停滞”,从而在问题扩大前进行干预。

不过,由于安全性争议,OpenClaw 框架此前曾受到审查。微软强调,Scout 将具备“企业级安全与治理能力”,并支持 Entra 身份体系。

目前,Scout 以实验版本形式向 Frontier 客户开放,需要通过 Intune 策略配置及 opt-in 授权使用。

定价尚未公布,尚不清楚是否会包含在 Microsoft 365 Copilot 中,或作为独立产品收费。

写在最后

尽管微软持续加码 AI,但其仍在说服企业客户:Microsoft 365 Copilot 的额外订阅(每用户每月 30 美元)是否真正具备价值。

目前约 2000 万用户为 Copilot 付费,但渗透率仍有提升空间。

从 MAI-Thinking-1 到 Scout,微软正在构建一条更完整的 AI 产品链:从基础模型,到多模态能力,再到企业级智能体系统。

这一次,它不再只是“接入别人的 AI”,而是试图成为 AI 本身的提供者。

© 版权声明

相关文章

暂无评论

none
暂无评论...