DeepSeek首次回应蒸馏OpenAI质疑澄清训练数据来源

DeepSeek首次回应蒸馏OpenAI质疑澄清训练数据来源！9月18日，DeepSeek团队的研究论文登上了国际权威期刊《Nature》的封面。这篇由梁文锋担任通讯作者的论文详细介绍了DeepSeek-R1模型。今年1月，DeepSeek曾在arxiv上发布了初版预印本论文，此次发布的版本补充了更多模型细节，并减少了拟人化描述。

论文中提到，R1模型的训练成本仅为29.4万美元。此前有报道称，OpenAI研究人员认为DeepSeek可能使用了OpenAI模型的输出来训练R1，从而在资源较少的情况下加速模型能力提升。对此，DeepSeek在补充材料中回应称，DeepSeek-V3-Base的训练数据仅来自普通网页和电子书，不包含任何合成数据。尽管一些网页包含大量OpenAI模型生成的答案，这可能导致基础模型间接受益于其他强大模型的知识，但DeepSeek表示已在预训练中针对数据污染进行了处理。

哥伦布市俄亥俄州立大学的AI研究员Huan Sun认为，DeepSeek的反驳具有说服力。Hugging Face的机器学习工程师Lewis Tunstall也表示，现有证据表明仅使用纯强化学习即可获得极高性能。

DeepSeek在论文中还提到，R1基于DeepSeek-V3模型训练，总训练成本约为600万美元，远低于竞争对手的数千万美元。DeepSeek-R1已成为全球最受欢迎的开源推理模型，在Hugging Face上的下载量超过1090万次，也是首个经过同行评审的主流大语言模型。

该论文题为《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》，展示了通过大规模强化学习激发大模型推理能力的重要成果。以往的研究主要依赖大量监督数据来提升模型性能，而DeepSeek团队则开辟了一种新思路，即使不用监督微调作为冷启动，也能显著提升模型的推理能力。如果再加上少量的冷启动数据，效果会更好。

在强化学习过程中，模型正确解答数学问题时会获得高分奖励，答错则会受到惩罚。这种机制使模型学会了逐步解决问题并揭示步骤，从而提高其在编程和研究生水平科学问题上的表现。为了降低训练成本，DeepSeek采用了群组相对策略优化（GRPO）方法，并设计了简单模板来引导基础模型，要求模型先给出推理过程再提供最终答案。此外，开发团队还直接使用DeepSeek-R1整理的80万个样本来微调Qwen和Llama等开源模型，结果表明这种简单的蒸馏方法显著增强了小模型的推理能力。DeepSeek首次回应蒸馏OpenAI质疑澄清训练数据来源！

免责声明：本文转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，亦不负任何法律责任。本站所有资源全部收集于互联网，分享目的仅供大家学习与参考，如有版权或知识产权侵犯等，请给我们留言。

DeepSeek首次回应蒸馏OpenAI质疑 澄清训练数据来源

最新

DeepSeek首次回应蒸馏OpenAI质疑澄清训练数据来源