7dc2
IT之家 5 月 1 日新闻,微软昨日(4 月 30 日)宣布 Phi-4-reasoning 系列推理模子, 通过监视微调 Phi-4,并使用 o3-mini 天生的高质量“可教育”提醒数据集训练,专为重大推理使命设计。 IT之家援引博文介绍,微软本次共推出 Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning 三款模子,官方称该系列模子不但延续了小型模子的高效特征,还在推理能力上实现重大突破。 该系列模子通过推理时间扩展(inference-time scaling)手艺,擅优点理需要多办法剖析和内部反思的重大使命,尤其在数学推理和署理型应用中体现突出,具备媲美大型前沿模子的潜力。 Phi-4-reasoning 是一款拥有 140 亿参数的开源推理模子,通过监视微调(Supervised Fine-Tuning,SFT)Phi-4,团结 OpenAI o3-mini 的高质量推理演示数据,并充分使用特殊盘算资源,天生详细的推理链条。 Phi-4-reasoning-plus 增强版通过强化学习(Reinforcement Learning,RL)进一步提升性能,tokens 用量比标准版多 1.5 倍,支持更高精度。 两款模子在数学推理和博士级科学问题测试中,均逾越 OpenAI o1-mini 和 DeepSeek-R1-Distill-Llama-70B,甚至在 AIME 2025(美国数学奥林匹克资格赛)中击败 6710 亿参数的 DeepSeek-R1满血模子。 Phi-4-mini-reasoning 专为盘算资源有限的情形设计,是一款基于 Transformer 的紧凑型语言模子,优化用于数学推理。 该模子通过 DeepSeek-R1 天生的合成数据微调,能在低延迟场景下提供高质量的逐步问题解决计划。这款模子笼罩从中学到博士级的百万级多样化数学问题,很是适合教育应用、嵌入式向导和边沿装备安排。 在多项数学基准测试中,其 3.8 亿参数的体现逾越 OpenThinker-7B 和 Llama-3.2-3B-instruct 等更大模子,甚至在部分测试中靠近 OpenAI o1-mini 的水平。