logo
资讯速递2025-09-22 14:59
登《自然》封面:DeepSeek的论文揭示了哪些信息?
自然系列微信公众号
摘要
今年1月,DeepSeek强大的人工智能(AI)模型R1一经推出便使美国股市暴跌。这家中国公司的研究人员表示,该模型的成功并非使用了其竞争对手的输出内容。相关研究以及同行评审版的R1模型近日发表于《自然》。 R1的设计是为了精通数学和编程一类的“推理”任务,是美国科技公司开发工具的一个平价竞品。作为一个“开放权重”模型,任何人都能下载,它已成为AI社群平台Hugging Face迄今最受欢迎的同类模型,累计下载1090万次。 这篇论文在1月发布的预印本论文的基础上又做了更新,描述了DeepSeek如何通过增强一个标准的大语言模型(LLM)来攻克推理任务。论文的补充材料首次揭示了R1训练成本:只有29.4万美元。即使加上这家杭州公司为构建R1基础LLM所花费的600万美元,总成本仍远低于其竞品模型可能花费的数千万美元。DeepSeek表示,R1主要使用英伟达(Nvidia)的H800芯片训练,该芯片2023年因美国出口管制被禁止向中国出售。
54

首个同行评审研究透露了一家中国初创公司如何用30万美元打造出了震动股市的LLM。



今年1月,DeepSeek强大的人工智能(AI)模型R1一经推出便使美国股市暴跌。这家中国公司的研究人员表示,该模型的成功并非使用了其竞争对手的输出内容。相关研究以及同行评审版的R1模型近日发表于《自然》[1]。


R1的设计是为了精通数学和编程一类的“推理”任务,是美国科技公司开发工具的一个平价竞品。作为一个“开放权重”模型,任何人都能下载,它已成为AI社群平台Hugging Face迄今最受欢迎的同类模型,累计下载1090万次。


这篇论文在1月发布的预印本论文的基础上又做了更新,描述了DeepSeek如何通过增强一个标准的大语言模型(LLM)来攻克推理任务。论文的补充材料首次揭示了R1训练成本:只有29.4万美元。即使加上这家杭州公司为构建R1基础LLM所花费的600万美元,总成本仍远低于其竞品模型可能花费的数千万美元。DeepSeek表示,R1主要使用英伟达(Nvidia)的H800芯片训练,该芯片2023年因美国出口管制被禁止向中国出售。


严格审稿


R1被认为是首个接受同行评审的大型LLM。“我们很欢迎这个先例,”这篇《自然》论文的审稿人、Hugging Face的机器学习工程师Lewis Tunstall说,“如果我们不让公开这个过程的一大部分成为规范,我们就很难评估这些系统会不会构成风险。”


作为对审稿意见的回应,DeepSeek团队在其描述中减少了拟人化表述,并增加了对技术细节的说明,包括该模型训练的数据类型及其安全性。“经过严格的同行评审流程,绝对有助于证明该模型的有效性和实用性,”俄亥俄州立大学的AI研究员孙欢说,“其他公司也应该这么做。”


DeepSeek的主要创新是使用名为“纯强化学习”(pure reinforcement learning)的自动化试错方法来构建R1。这个过程会奖励模型给出了正确答案,而不是教模型去遵循由人类选择的推理示例。DeepSeek表示,该模型正是通过这种方式学会了它自己的类推理策略,比如如何在不遵循人类指定策略的情况下验证其工作方式。为了提高效率,该模型还用估算方法给自己的尝试进行打分——该方法名为“组相对策略优化”——而不是部署另外的算法来完成这个任务。


该模型在AI研究群体中“很有影响力”,孙欢说,“2025年到目前为止,几乎所有在LLM中进行强化学习的工作,可能或多或少都得到了R1的启发。”


训练方法


在1月的媒体报道中,推出ChatGPT和“o”系列推理模型的美国旧金山OpenAI公司的研究人员认为,DeepSeek使用了OpenAI模型的输出来训练R1,这种方法或能用更少的资源来加速模型能力提升。


DeepSeek未将训练数据随论文发表。不过,在与审稿人的交流中,DeepSeek的研究人员表示,R1不是通过模仿OpenAI模型生成的推理示例进行学习的。但他们承认,和大部分其他LLM一样,R1的基础模型也是在网上训练的,所以它会吸收网络上已有的AI生成内容。


孙欢表示,这一反驳与我们在任何发表物中看到的一样令人信服。Tunstall也表示,虽然他不能百分百确定R1不是用OpenAI示例训练的,但其他实验室尝试重复的工作显示,DeepSeek的推理秘籍可能足够好,好到无需这么做。“我认为现在的证据很明确了,只用纯强化学习就能达到很高的性能。”


孙欢说,对于研究人员而言,R1依然很有竞争力。名为ScienceAgentBench的挑战考验完成数据分析和可视化等科研任务的能力,孙欢和同事发现,虽然R1的准确性不是第一名,但它在平衡能力与成本方面是最好的模型之一。


其他研究人员正在尝试利用构建R1的方法来提升现有LLM的类推理能力,并将它们拓展至数学和编程以外的领域,Tunstall说,从这个角度看,R1已经掀起了一场革命。


转载自自然系列微信公众号


原文链接:https://mp.weixin.qq.com/s/tm3jJyy3nvU2vJiWXqbJuw



上一篇期刊大咖谈 | 中国科技期刊如何突破“两头在外”困局
下一篇中南大学多名学者入选2025年全球前2%顶尖科学家榜单