专题:DeepSeek为何能震动全球AI圈
来源:麻省理工学院科技评论
AI 社区对 DeepSeek R1 感到兴奋,这是一种新的开源推理模型。
该模型由中国人工智能初创公司 DeepSeek 开发,该公司声称 R1 在多个关键基准测试上与甚至超过了 OpenAI 的 ChatGPT o1,但运行成本只是其中的一小部分。
“这可能是一个真正的平等突破,对于资源有限的研究人员和开发人员来说非常有用,尤其是来自全球南方的研究人员和开发人员,”埃默里大学信息系统助理教授 Hancheng Cao 说。
考虑到中国人工智能公司面临的限制,即美国加强对尖端芯片的出口管制,DeepSeek 的成功更加引人注目。但早期证据表明,这些措施并没有按预期发挥作用。制裁非但没有削弱中国的人工智能能力,反而似乎推动了像 DeepSeek 这样的初创公司以优先考虑效率、资源共享和协作的方式进行创新。
据 DeepSeek 前员工、现任西北大学计算机科学博士生 Zihan Wang 称,为了创建 R1,DeepSeek 不得不重新设计其训练过程,以减少其 GPU 的压力,这是 Nvidia 为中国市场发布的一个品种,其性能上限是其顶级产品速度的一半。
DeepSeek R1 因其处理复杂推理任务的能力而受到研究人员的称赞,尤其是在数学和编码方面。该模型采用类似于 ChatGPT o1 使用的“思维链”方法,允许它通过逐步处理查询来解决问题。
Microsoft AI Frontiers 研究实验室的首席研究员 Dimitris Papailiopoulos 表示,R1 最让他感到惊讶的是它的工程简单性。“DeepSeek 的目标是准确答案,而不是详细说明每个逻辑步骤,从而显著减少计算时间,同时保持高水平的效率,”他说。
DeepSeek 还发布了 6 个较小版本的 R1,它们足够小,可以在笔记本电脑上本地运行。它声称其中之一在某些基准测试中甚至优于 OpenAI 的 o1-mini。DeepSeek 在很大程度上复制了 o1-mini 并将其开源,“Perplexity 首席执行官 Aravind Srinivas 在推特上写道。DeepSeek 没有回复《麻省理工科技评论》的置评请求。
尽管围绕 R1 的讨论声响,但 DeepSeek 仍然相对不为人知。它总部位于中国杭州,由具有信息和电子工程背景的浙江大学校友梁文峰于 2023 年 7 月创立。它由 Liang 于 2015 年创立的对冲基金 High-Flyer 孵化。与 OpenAI 的 Sam Altman 一样,Liang 的目标是构建通用人工智能 (AGI),这是一种可以在一系列任务上与人类相媲美甚至击败人类的 AI 形式。
训练大型语言模型 (LLM) 需要一支训练有素的研究人员团队和强大的计算能力。在最近接受中国媒体 LatePost 采访时,资深企业家、谷歌中国前负责人李开复表示,通常只有“前排玩家”才会参与构建 ChatGPT 等基础模型,因为它非常耗费资源。美国对先进半导体的出口管制使情况进一步复杂化。然而,High-Flyer 涉足 AI 的决定与这些限制直接相关。早在预期的制裁之前,梁就购买了大量英伟达 A100 芯片库存,这种芯片现在被禁止出口到中国。中国媒体 36Kr 估计该公司的库存超过 10,000 台,但人工智能研究咨询公司 SemiAnalysis 的创始人迪伦·帕特尔 (Dylan Patel) 估计它至少有 50,000 台。认识到这些库存在 AI 训练方面的潜力,Liang 成立了 DeepSeek,该公司能够将它们与低功耗芯片结合使用来开发其模型。
阿里巴巴和字节跳动等科技巨头,以及少数拥有雄厚投资者的初创公司,在中国的人工智能领域占据主导地位,这使得中小企业难以竞争。像 DeepSeek 这样没有筹集资金计划的公司很少见。
DeepSeek 的前员工 Zihan Wang 告诉《麻省理工科技评论》,他在 DeepSeek 工作时可以获得丰富的计算资源,并且可以自由地进行实验,“这是任何公司都很少有应届毕业生能得到的奢侈”。
在 2024 年 7 月接受中国媒体 36 氪采访时,梁振英表示,除了芯片制裁之外,中国公司面临的另一个挑战是他们的 AI 工程技术往往效率较低。“我们 [大多数中国公司] 必须消耗两倍的计算能力才能获得相同的结果。再加上数据效率差距,这可能意味着需要高达 4 倍的计算能力。我们的目标是不断缩小这些差距,“他说。
但是 DeepSeek 找到了减少内存使用量和加快计算速度的方法,而不会显着牺牲准确性。“该团队喜欢将硬件挑战转化为创新机会,”Wang 说。
Liang 本人仍然深入参与 DeepSeek 的研究过程,与他的团队一起进行实验。“整个团队都拥有一种协作文化和对硬核研究的奉献精神,”Wang 说。
除了优先考虑效率外,中国公司还越来越多地采用开源原则。阿里云发布了 100 多个新的开源 AI 模型,支持 29 种语言,可满足各种应用程序的需求,包括编码和数学。同样,Minimax 和 01.AI 等初创公司也开源了他们的模型。
根据国家级研究机构中国信息通信研究院去年发布的白皮书,全球 AI 大语言模型的数量已达到 1328 个,其中 36% 源自中国。这使中国成为仅次于美国的第二大 AI 贡献者。
“这一代年轻的中国研究人员对开源文化有强烈的认同感,因为他们从中受益匪浅,”塔夫茨大学技术政策助理教授 Thomas Qitong Cao 说。
“美国的出口管制基本上将中国公司逼入了一个角落,他们必须利用有限的计算资源提高工作效率,”卡内基国际和平基金会的人工智能研究员马特·希恩 (Matt Sheehan) 说。“未来我们可能会看到很多与缺乏计算相关的整合。”
这可能已经开始发生了。两周前,阿里云宣布已与李开复创立的北京初创公司 01.AI 合作,合并研究团队并建立“工业大型模型实验室”。
“人工智能行业出现某种形式的分工是节能的,也是自然的,”塔夫茨大学教授 Cao 说。“AI 的快速发展要求中国公司具有敏捷性才能生存。”
海量资讯、精准解读,尽在新浪财经APP
责任编辑:何俊熹