微软推出全新开源模型PH4,性能堪比DeepSeek-R1,参数量减少48倍

微软近日开源了三款基于Phi-4架构的新型小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。其中,Reasoning模型是以Phi-4为基础打造的,Mini版本特别适合在平板、手机等移动设备上运行,而Plus版本则经过强化学习优化,专门针对数学等特定领域进行了强化训练。

这三款模型的一大优势是其极低的算力需求,可以在普通的消费级硬件上顺畅运行。例如在搭载Windows 11的常见设备上,无论使用CPU还是GPU,都能实现本地部署。此外,微软已将Phi-4系列深度整合至Windows生态,为Copilot和PC的结合提供核心支持。

测试结果显示,尽管Phi-4-Reasoning-plus仅拥有140亿参数,但其表现接近拥有6710亿参数的DeepSeek开源大型模型R1。在2025年的美国数学奥林匹克资格赛中,Reasoning-plus获得了78分,显著高于R1的70.4分;哈佛-麻省理工数学竞赛中,Reasoning-plus得分为53.6,领先R1的41.7分;在Ominimath测试中,Reasoning-plus达到81.9分,略逊于R1的85分;而在GPQA测试中,Reasoning-plus得到了69.3分,接近R1的73分,奠定了其作为当前最强开源小参数模型的地位。


开源地址:
https://huggingface.co/microsoft/Phi-4-reasoning

https://huggingface.co/microsoft/Phi-4-mini-reasoning

https://huggingface.co/microsoft/Phi-4-reasoning-plus

Phi-4-Reasoning基于微软开源的Phi-4模型构建。为了增强其推理能力,微软采用了结合监督微调与强化学习的训练策略进行深入优化。具体做法是,先通过监督微调让模型学习高质量的推理示例,这有助于模型生成详细且连贯的推理步骤,从而更有效地利用推理过程中的计算资源。此方法相当于为模型提供了一种“参考答案”,指导其如何更准确地完成推理任务。


Phi-4-Reasoning模型基于微软开源的Phi-4架构构建。为了提升其推理能力,微软采用了结合监督微调与强化学习的训练策略进行深度优化。首先,通过监督微调使模型学习大量高质量的推理示范,从而能够生成详细且连贯的推理步骤,有效利用推理时的计算资源,这相当于为模型提供了一个“参考标准”,指导其正确推理。

然而,单靠监督微调并不足以覆盖所有领域的复杂推理需求,因此微软进一步引入了强化学习阶段。该阶段通过设计奖励函数,促使模型在数学推理等特定领域生成更加准确和深入的推理链,起到了激励模型更深入思考的作用,从而显著提升了推理的精度和深度。

在推理流程设计上,Phi-4-Reasoning引入了专门的推理标记如,用以明确标识推理链的起止位置。这为模型提供了一个组织推理的框架,帮助其更好地构建逻辑严密且连贯的推理过程。

此外,该模型支持的最大上下文长度从16K增加到了32K,这极大扩展了模型处理长推理链和复杂任务的能力,避免了因上下文长度受限而导致推理中断的问题。

微软还高度重视训练数据的质量,广泛收集了来自公开网站和现有数据集的海量问题,涵盖数学、科学、编程以及安全相关领域。这些多样化且高质量的数据为模型的训练提供了坚实基础,进一步保证了模型在实际应用中的表现。


此外,还采用了合成数据生成的方法,将某些问题转化为新的表现形式。例如,将编程题转化成文字描述的问题,或对数学题进行变形处理,以更好地契合推理训练的要求。这样的数据设计和合成手段不仅扩展了训练数据的种类和内容,也为模型创造了更加多样化的学习环境,进而增强了模型的泛化能力。

·


我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。


欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。

·



展开阅读全文

更新时间:2025-05-13

标签:科技   微软   模型   性能   参数   连贯   数据   领域   能力   数学   上下文   深度

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top