Close

DeepSeek首次回应蒸馏OpenAI质疑 澄清训练数据来源

09-18 HaiPress

DeepSeek首次回应蒸馏OpenAI质疑 澄清训练数据来源!9月18日,DeepSeek团队的研究论文登上了国际权威期刊《Nature》的封面。这篇由梁文锋担任通讯作者的论文详细介绍了DeepSeek-R1模型。今年1月,DeepSeek曾在arxiv上发布了初版预印本论文,此次发布的版本补充了更多模型细节,并减少了拟人化描述。

论文中提到,R1模型的训练成本仅为29.4万美元。此前有报道称,OpenAI研究人员认为DeepSeek可能使用了OpenAI模型的输出来训练R1,从而在资源较少的情况下加速模型能力提升。对此,DeepSeek在补充材料中回应称,DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任何合成数据。尽管一些网页包含大量OpenAI模型生成的答案,这可能导致基础模型间接受益于其他强大模型的知识,但DeepSeek表示已在预训练中针对数据污染进行了处理。

哥伦布市俄亥俄州立大学的AI研究员Huan Sun认为,DeepSeek的反驳具有说服力。Hugging Face的机器学习工程师Lewis Tunstall也表示,现有证据表明仅使用纯强化学习即可获得极高性能。

DeepSeek在论文中还提到,R1基于DeepSeek-V3模型训练,总训练成本约为600万美元,远低于竞争对手的数千万美元。DeepSeek-R1已成为全球最受欢迎的开源推理模型,在Hugging Face上的下载量超过1090万次,也是首个经过同行评审的主流大语言模型。

该论文题为《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,展示了通过大规模强化学习激发大模型推理能力的重要成果。以往的研究主要依赖大量监督数据来提升模型性能,而DeepSeek团队则开辟了一种新思路,即使不用监督微调作为冷启动,也能显著提升模型的推理能力。如果再加上少量的冷启动数据,效果会更好。

在强化学习过程中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。这种机制使模型学会了逐步解决问题并揭示步骤,从而提高其在编程和研究生水平科学问题上的表现。为了降低训练成本,DeepSeek采用了群组相对策略优化(GRPO)方法,并设计了简单模板来引导基础模型,要求模型先给出推理过程再提供最终答案。此外,开发团队还直接使用DeepSeek-R1整理的80万个样本来微调Qwen和Llama等开源模型,结果表明这种简单的蒸馏方法显著增强了小模型的推理能力。DeepSeek首次回应蒸馏OpenAI质疑 澄清训练数据来源!

免责声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,亦不负任何法律责任。 本站所有资源全部收集于互联网,分享目的仅供大家学习与参考,如有版权或知识产权侵犯等,请给我们留言。
©版权 2009-2020 数码新闻   3cnews.com.cn   联系我们   SiteMap