DeepSeek与清华联合发布重磅论文:从 SPCT 到 Meta Reward Model,或预示DeepSeek R2将近
这一成果不仅被视作DeepSeek下一代推理模型R2的技术基石,更在全球AI界掀起轩然大波——它意味着,传统依赖“训练时优化”的AI发展模式,正在被“推理时扩展”的颠覆性方法论取代。2025年4月4日,中国人工智能企业深度求索(DeepSeek)与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文,提出。例如,在代码生成任务中,模型可同时评估代
2025年4月4日,中国人工智能企业深度求索(DeepSeek)与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文,提出自我原则点评调优(SPCT)与元奖励模型(Meta Reward Model)两大核心技术,为大语言模型(LLM)的推理能力提升开辟了全新路径。这一成果不仅被视作DeepSeek下一代推理模型R2的技术基石,更在全球AI界掀起轩然大波——它意味着,传统依赖“训练时优化”的AI发展模式,正在被“推理时扩展”的颠覆性方法论取代。
技术解析:动态奖励机制如何突破推理瓶颈?
1. 从固定架构到推理时Scaling
传统大模型依赖强化学习(RL)调整参数优化性能,但推理能力受限于固定架构。本次研究首次提出“推理时Scaling”概念:在不改变模型参数的前提下,通过动态调整奖励机制实现性能跃升。
SPCT(自我原则点评调优):模型在推理中实时评估输出的逻辑一致性与事实准确性,并基于反馈动态优化生成策略。例如,在数学推理任务中,模型会生成多个候选答案,通过内部“自我批评”筛选最优解。
元奖励模型(Meta Reward Model):构建多层级奖励评估体系,统一处理单响应、多响应及对比评分的复杂场景。例如,在代码生成任务中,模型可同时评估代码的功能性、可读性和执行效率,并通过元模型过滤低质量反馈。
实验数据显示,该方法在GSM8K数学推理测试中准确率提升12%,代码生成任务执行成功率提高19%。
2. 技术实现:SPCT的两阶段优化
SPCT通过两阶段训练实现推理时扩展:
拒绝式微调(Rejective Fine-Tuning):初步筛选出符合格式与逻辑的准则与批评,作为冷启动基础。
基于规则的在线强化学习:通过动态生成高质量原则(如“代码需通过单元测试”),结合元奖励模型优化奖励信号,实现细粒度性能提升。
关键突破:传统奖励模型依赖人工规则,而SPCT使模型能自主生成适配不同场景的评判标准,显著提升泛化能力
行业影响:低成本技术路径重塑AI竞争格局
1. 训练成本仅为同类1/5,算力需求骤降
DeepSeek-GRM系列模型采用FP8混合精度训练与多令牌预测技术,训练成本仅为同类模型的1/5。相比之下,OpenAI等企业的开发成本常达上亿美元。这一低成本路径不仅降低了技术门槛,更可能颠覆以算力堆砌为核心的行业竞争规则。
2. 开源生态加速技术民主化
论文提及的元奖励模型框架可直接应用于现有大模型升级。清华大学教授沈阳评价称,该技术为开源社区提供了“可复用的工具链”,有望推动AI技术普惠化。目前,DeepSeek的开源策略已吸引超20万开发者,覆盖医疗、金融等垂直领域。
3. 市场震荡:英伟达股价单日暴跌17%
高效模型对算力依赖的降低引发连锁反应。英伟达因市场对“算力需求下降”的预期,股价单日跌幅达17%。与此同时,DeepSeek的AI助手全球月活突破1.25亿,超越ChatGPT登顶多国应用商店。
R2模型猜想:技术铺垫还是发布前兆?
尽管论文未明确提及R2模型,但多重线索指向其关联性:
时间节点:论文发布时间与传闻中的R2计划(4-5月)高度重合。
技术继承:DeepSeek-GRM采用的知识蒸馏与负载均衡策略,与R1模型一脉相承。
行业博弈:OpenAI近期宣布开源推理模型,被解读为应对DeepSeek技术压力的举措。
分析人士推测,此次论文或是R2的“技术白皮书”,后续将通过分阶段开源逐步推进。
未来展望:从推理优化到AGI的“临门一脚”
研究团队提出三大探索方向:
多模态扩展:将推理时优化框架应用于图像、视频生成任务。
实时学习:在对话中实现“边推理边更新”的持续学习机制。
安全增强:通过元奖励模型动态拦截有害输出,解决大模型对齐难题。
正如论文结语所言:“当模型学会在推理中自我反思,我们离通用人工智能(AGI)又近了一步。”
结语:中国AI从追随者到规则制定者的跃迁
DeepSeek与清华大学的合作,展现了“理论-实践”闭环的创新优势。论文近半数作者为华人研究者,且训练数据包含高质量中文语料,为中文场景优化提供独特优势。这场由中美技术竞赛驱动的AI革命,正悄然改写全球科技权力版图。
📌 相关推荐
碾压 OpenAI,DeepSeek-R1 发布!如何在本地实现 DeepSeek?
0元本地部署!体验 OpenAI 价值20000美金/月的博士级智能体
更上层楼!仅用2GB资源,让最火的DeepSeek-R1在本机上奔跑!
再上层楼,让DeepSeek-R1在16G内存,无GPU的Windows笔记本上本地运行!
月上西楼!一行命令让本地大模型学会 DeepSeek 的深度思考!
👇点击阅读原文,获取开源地址
🚀帮我们点亮一颗🌟,愿您的开发之路星光璀璨
更多推荐
所有评论(0)