微软推出全新开源模型PH4，性能堪比DeepSeek-R1，参数量减少48倍

微软近日开源了三款基于Phi-4架构的新型小参数模型，分别是Reasoning、Min-Reasoning和Reasoning-plus。其中，Reasoning模型是以Phi-4为基础打造的，Mini版本特别适合在平板、手机等移动设备上运行，而Plus版本则经过强化学习优化，专门针对数学等特定领域进行了强化训练。

这三款模型的一大优势是其极低的算力需求，可以在普通的消费级硬件上顺畅运行。例如在搭载Windows 11的常见设备上，无论使用CPU还是GPU，都能实现本地部署。此外，微软已将Phi-4系列深度整合至Windows生态，为Copilot和PC的结合提供核心支持。

测试结果显示，尽管Phi-4-Reasoning-plus仅拥有140亿参数，但其表现接近拥有6710亿参数的DeepSeek开源大型模型R1。在2025年的美国数学奥林匹克资格赛中，Reasoning-plus获得了78分，显著高于R1的70.4分；哈佛-麻省理工数学竞赛中，Reasoning-plus得分为53.6，领先R1的41.7分；在Ominimath测试中，Reasoning-plus达到81.9分，略逊于R1的85分；而在GPQA测试中，Reasoning-plus得到了69.3分，接近R1的73分，奠定了其作为当前最强开源小参数模型的地位。

开源地址：
https://huggingface.co/microsoft/Phi-4-reasoning

https://huggingface.co/microsoft/Phi-4-mini-reasoning

https://huggingface.co/microsoft/Phi-4-reasoning-plus

Phi-4-Reasoning基于微软开源的Phi-4模型构建。为了增强其推理能力，微软采用了结合监督微调与强化学习的训练策略进行深入优化。具体做法是，先通过监督微调让模型学习高质量的推理示例，这有助于模型生成详细且连贯的推理步骤，从而更有效地利用推理过程中的计算资源。此方法相当于为模型提供了一种“参考答案”，指导其如何更准确地完成推理任务。

Phi-4-Reasoning模型基于微软开源的Phi-4架构构建。为了提升其推理能力，微软采用了结合监督微调与强化学习的训练策略进行深度优化。首先，通过监督微调使模型学习大量高质量的推理示范，从而能够生成详细且连贯的推理步骤，有效利用推理时的计算资源，这相当于为模型提供了一个“参考标准”，指导其正确推理。

然而，单靠监督微调并不足以覆盖所有领域的复杂推理需求，因此微软进一步引入了强化学习阶段。该阶段通过设计奖励函数，促使模型在数学推理等特定领域生成更加准确和深入的推理链，起到了激励模型更深入思考的作用，从而显著提升了推理的精度和深度。

在推理流程设计上，Phi-4-Reasoning引入了专门的推理标记如和，用以明确标识推理链的起止位置。这为模型提供了一个组织推理的框架，帮助其更好地构建逻辑严密且连贯的推理过程。

此外，该模型支持的最大上下文长度从16K增加到了32K，这极大扩展了模型处理长推理链和复杂任务的能力，避免了因上下文长度受限而导致推理中断的问题。

微软还高度重视训练数据的质量，广泛收集了来自公开网站和现有数据集的海量问题，涵盖数学、科学、编程以及安全相关领域。这些多样化且高质量的数据为模型的训练提供了坚实基础，进一步保证了模型在实际应用中的表现。

此外，还采用了合成数据生成的方法，将某些问题转化为新的表现形式。例如，将编程题转化成文字描述的问题，或对数学题进行变形处理，以更好地契合推理训练的要求。这样的数据设计和合成手段不仅扩展了训练数据的种类和内容，也为模型创造了更加多样化的学习环境，进而增强了模型的泛化能力。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。

欢迎关注“福大大架构师每日一题”，让AI助力您的未来发展。

展开阅读全文

更新时间：2025-06-28

标签：科技微软模型性能参数连贯数据领域能力数学上下文深度

1 2 3 4 5

微软推出全新开源模型PH4，性能堪比DeepSeek-R1，参数量减少48倍

王兴兴最新发声！已在上海成立分公司，还有进一步合作，喊话“很缺人！所有岗位都缺”

2025 年 5 月 11 日科技资讯速览

包钢股份获融资买入1.19亿元，近三日累计买入3.25亿元

英国政府宣布远景动力桑德兰超级工厂获10亿英镑融资

法国波兰签署条约加强两国防务和能源合作

PTA：价格震荡偏强，主力合约 4200-4700

甬金股份获融资买入0.20亿元，近三日累计买入0.49亿元

和讯投顾朱瑶：大盘下周能上3400吗？

三江购物获融资买入0.14亿元，近三日累计买入0.59亿元

贵航股份获融资买入0.61亿元，近三日累计买入1.76亿元

兴发集团获融资买入0.43亿元，近三日累计买入1.20亿元

松下控股计划裁员1万人约占其全球员工总数的4%

华钰矿业获融资买入1.57亿元，居两市第40位

欧洲多国领导人抵达乌克兰基辅进行访问

热度第一！002965，华为人形机器人概念龙头最新披露！固态电池概念火了

2025 年 5 月 11 日科技资讯速览

国网湖北省电力有限公司信息通信公司与武汉大学申请基

亚历山大加时赛0次出手&连续六回合传球，五项数据全

协作机器人、倾转旋翼机、3D打印组队亮“绝活” 银川

联想自研5nm芯片曝光！国产芯逆袭改写全球科技战规则

太力科技中签号出炉共2.35万个

北汽集团10大智能黑科技大揭秘

“为什么要坚持做人形机器人？”宇树科技王兴兴在上海袒

翱捷科技（688220）5月9日主力资金净卖出9825.77万元

盘点G2罚球大战，两边罚球究竟谁占上风？数据不会说假话