DeepSeek首次回应蒸馏OpenAI质疑 澄清训练数据来源

2025-09-18    HaiPress

DeepSeek首次回应蒸馏OpenAI质疑 澄清训练数据来源!9月18日,DeepSeek团队的研究论文登上了国际权威期刊《Nature》的封面。这篇由梁文锋担任通讯作者的论文详细介绍了DeepSeek-R1模型。今年1月,DeepSeek曾在arxiv上发布了初版预印本论文,此次发布的版本补充了更多模型细节,并减少了拟人化描述。

论文中提到,R1模型的训练成本仅为29.4万美元。此前有报道称,OpenAI研究人员认为DeepSeek可能使用了OpenAI模型的输出来训练R1,从而在资源较少的情况下加速模型能力提升。对此,DeepSeek在补充材料中回应称,DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任何合成数据。尽管一些网页包含大量OpenAI模型生成的答案,这可能导致基础模型间接受益于其他强大模型的知识,但DeepSeek表示已在预训练中针对数据污染进行了处理。

哥伦布市俄亥俄州立大学的AI研究员Huan Sun认为,DeepSeek的反驳具有说服力。Hugging Face的机器学习工程师Lewis Tunstall也表示,现有证据表明仅使用纯强化学习即可获得极高性能。

DeepSeek在论文中还提到,R1基于DeepSeek-V3模型训练,总训练成本约为600万美元,远低于竞争对手的数千万美元。DeepSeek-R1已成为全球最受欢迎的开源推理模型,在Hugging Face上的下载量超过1090万次,也是首个经过同行评审的主流大语言模型。

该论文题为《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,展示了通过大规模强化学习激发大模型推理能力的重要成果。以往的研究主要依赖大量监督数据来提升模型性能,而DeepSeek团队则开辟了一种新思路,即使不用监督微调作为冷启动,也能显著提升模型的推理能力。如果再加上少量的冷启动数据,效果会更好。

在强化学习过程中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。这种机制使模型学会了逐步解决问题并揭示步骤,从而提高其在编程和研究生水平科学问题上的表现。为了降低训练成本,DeepSeek采用了群组相对策略优化(GRPO)方法,并设计了简单模板来引导基础模型,要求模型先给出推理过程再提供最终答案。此外,开发团队还直接使用DeepSeek-R1整理的80万个样本来微调Qwen和Llama等开源模型,结果表明这种简单的蒸馏方法显著增强了小模型的推理能力。DeepSeek首次回应蒸馏OpenAI质疑 澄清训练数据来源!

免责声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,亦不负任何法律责任。 本站所有资源全部收集于互联网,分享目的仅供大家学习与参考,如有版权或知识产权侵犯等,请给我们留言。

最新

  • 日媒:日本前首相菅义伟将退出政坛 因体力原因

    据日本《产经新闻》报道,日本前首相菅义伟表示他将退出政坛,不会参加即将举行的众议院选举。现年77岁的菅义伟解释说,退出政坛是考虑到体力方面的因素。菅义伟是资深自民党成员,在安倍晋三内阁担任内阁官房长官长达7年
  • 神舟二十号航天员乘组回忆太空险情 舷窗遇碎片撞击应急处置

    2026年1月16日,神舟二十号乘组在北京航天城与媒体见面。这是陈冬、陈中瑞和王杰三位航天员在换乘神舟二十一号飞船返回地球63天后的首次公开亮相。他们分享了太空驻留期间的工作感悟及舷窗遭遇空间碎片撞击后的应急处置过程
  • 中国和加拿大领导人会晤联合声明 双方同意加强农业合作和粮食安全

    1月16日,中国和加拿大领导人会晤并发布联合声明。双方同意加强中加经贸伙伴关系,欢迎在解决贸易问题上取得的进展。两国致力于扩大双边贸易,加强双向投资,并在多个领域深化合作
  • “中道”力量开始集结,能否阻止日本继续向右?

    此刻的日本政坛,正处于上世纪九十年代政治改革以来最具震动性的历史转折点。随着日本自民党总裁、首相高市早苗将于23日解散众议院、提前举行大选,新的政治格局正逐渐形成。两大在野党战略合流高市14日向自民党与日本维新会执政联盟正式传达解散众议院的...
  • 标注500M实际35M 理论网速非挡箭牌 用户不满实际速率

    江苏盐城的陈先生因家中5G网速慢而感到困扰。经过检测,他所在楼层的5G网速为35Mbps,楼下则为57.6Mbps,而他购买的每月129元的5G套餐曾标注下行速率可达500M。陈先生多次向盐城电信投诉,并向江苏省通信管理局反映问题
  • 世粮署:苏丹援助粮食储备3月将耗尽

    世界粮食计划署(WFP)2026年1月15日发出紧急警告:其在苏丹的援助粮食储备预计将于3月底耗尽。若无额外资金注入,超过2100万处于严重粮食不安全状态的苏丹人将面临饥饿威胁。目前,每月约400万人依赖援助生存,但配给已被压缩至维持基本生...
  • 舒默要求美总统撤离移民执法人员 社区安全受威胁

    美国参议院民主党领袖查克·舒默在当地时间15日要求总统特朗普从各个城市撤出美国移民与海关执法局执法人员
  • 离“史上最长春节假期”还有1个月 学生抢跑春运档

    距离春节长假还有一个月,许多人已经开始规划假期出行。本周全国高校陆续放寒假,学生大军出行量快速增长,带动春节出行预订启动。2026年的春节假期长达9天,显著提升了旅行热度
  • 神二十航天员乘组与记者见面会举行 太空归来首次亮相

    1月16日,中国航天员科研训练中心在北京举办了神舟二十号乘组与记者见面会。航天员陈冬、陈中瑞和王杰在完成神舟二十一号飞船任务后首次正式公开亮相
  • 专家称此次中国股市肯定是一个长牛

    在新浪金麒麟论坛上,谈及中国股市大涨的原因,中央财经大学中国企业研究中心研究员刘姝威表示,第一个原因,是经济周期到了。根据康波周期,2025年是新的康波周期的起点,它的引擎行业应该是新能源,也就是汽车,而且现在看来确实是这样。第二,反腐败改...

友情链接

Back to top
      联系我们   SiteMap