中国顶级AI模型如何克服美国制裁

专题：DeepSeek为何能震动全球AI圈

　　来源：麻省理工学院科技评论

　　AI 社区对 DeepSeek R1 感到兴奋，这是一种新的开源推理模型。

　　该模型由中国人工智能初创公司 DeepSeek 开发，该公司声称 R1 在多个关键基准测试上与甚至超过了 OpenAI 的 ChatGPT o1，但运行成本只是其中的一小部分。

　　“这可能是一个真正的平等突破，对于资源有限的研究人员和开发人员来说非常有用，尤其是来自全球南方的研究人员和开发人员，”埃默里大学信息系统助理教授 Hancheng Cao 说。

　　考虑到中国人工智能公司面临的限制，即美国加强对尖端芯片的出口管制，DeepSeek 的成功更加引人注目。但早期证据表明，这些措施并没有按预期发挥作用。制裁非但没有削弱中国的人工智能能力，反而似乎推动了像 DeepSeek 这样的初创公司以优先考虑效率、资源共享和协作的方式进行创新。

　　据 DeepSeek 前员工、现任西北大学计算机科学博士生 Zihan Wang 称，为了创建 R1，DeepSeek 不得不重新设计其训练过程，以减少其 GPU 的压力，这是 Nvidia 为中国市场发布的一个品种，其性能上限是其顶级产品速度的一半。

　　DeepSeek R1 因其处理复杂推理任务的能力而受到研究人员的称赞，尤其是在数学和编码方面。该模型采用类似于 ChatGPT o1 使用的“思维链”方法，允许它通过逐步处理查询来解决问题。

　　Microsoft AI Frontiers 研究实验室的首席研究员 Dimitris Papailiopoulos 表示，R1 最让他感到惊讶的是它的工程简单性。“DeepSeek 的目标是准确答案，而不是详细说明每个逻辑步骤，从而显著减少计算时间，同时保持高水平的效率，”他说。

　　DeepSeek 还发布了 6 个较小版本的 R1，它们足够小，可以在笔记本电脑上本地运行。它声称其中之一在某些基准测试中甚至优于 OpenAI 的 o1-mini。DeepSeek 在很大程度上复制了 o1-mini 并将其开源，“Perplexity 首席执行官 Aravind Srinivas 在推特上写道。DeepSeek 没有回复《麻省理工科技评论》的置评请求。

　　尽管围绕 R1 的讨论声响，但 DeepSeek 仍然相对不为人知。它总部位于中国杭州，由具有信息和电子工程背景的浙江大学校友梁文峰于 2023 年 7 月创立。它由 Liang 于 2015 年创立的对冲基金 High-Flyer 孵化。与 OpenAI 的 Sam Altman 一样，Liang 的目标是构建通用人工智能（AGI），这是一种可以在一系列任务上与人类相媲美甚至击败人类的 AI 形式。

　　训练大型语言模型（LLM）需要一支训练有素的研究人员团队和强大的计算能力。在最近接受中国媒体 LatePost 采访时，资深企业家、谷歌中国前负责人李开复表示，通常只有“前排玩家”才会参与构建 ChatGPT 等基础模型，因为它非常耗费资源。美国对先进半导体的出口管制使情况进一步复杂化。然而，High-Flyer 涉足 AI 的决定与这些限制直接相关。早在预期的制裁之前，梁就购买了大量英伟达 A100 芯片库存，这种芯片现在被禁止出口到中国。中国媒体 36Kr 估计该公司的库存超过 10，000 台，但人工智能研究咨询公司 SemiAnalysis 的创始人迪伦·帕特尔（Dylan Patel）估计它至少有 50，000 台。认识到这些库存在 AI 训练方面的潜力，Liang 成立了 DeepSeek，该公司能够将它们与低功耗芯片结合使用来开发其模型。

　　阿里巴巴和字节跳动等科技巨头，以及少数拥有雄厚投资者的初创公司，在中国的人工智能领域占据主导地位，这使得中小企业难以竞争。像 DeepSeek 这样没有筹集资金计划的公司很少见。

　　DeepSeek 的前员工 Zihan Wang 告诉《麻省理工科技评论》，他在 DeepSeek 工作时可以获得丰富的计算资源，并且可以自由地进行实验，“这是任何公司都很少有应届毕业生能得到的奢侈”。

　　在 2024 年 7 月接受中国媒体 36 氪采访时，梁振英表示，除了芯片制裁之外，中国公司面临的另一个挑战是他们的 AI 工程技术往往效率较低。“我们 [大多数中国公司] 必须消耗两倍的计算能力才能获得相同的结果。再加上数据效率差距，这可能意味着需要高达 4 倍的计算能力。我们的目标是不断缩小这些差距，“他说。

　　但是 DeepSeek 找到了减少内存使用量和加快计算速度的方法，而不会显着牺牲准确性。“该团队喜欢将硬件挑战转化为创新机会，”Wang 说。

　　Liang 本人仍然深入参与 DeepSeek 的研究过程，与他的团队一起进行实验。“整个团队都拥有一种协作文化和对硬核研究的奉献精神，”Wang 说。

　　除了优先考虑效率外，中国公司还越来越多地采用开源原则。阿里云发布了 100 多个新的开源 AI 模型，支持 29 种语言，可满足各种应用程序的需求，包括编码和数学。同样，Minimax 和 01.AI 等初创公司也开源了他们的模型。

　　根据国家级研究机构中国信息通信研究院去年发布的白皮书，全球 AI 大语言模型的数量已达到 1328 个，其中 36% 源自中国。这使中国成为仅次于美国的第二大 AI 贡献者。

　　“这一代年轻的中国研究人员对开源文化有强烈的认同感，因为他们从中受益匪浅，”塔夫茨大学技术政策助理教授 Thomas Qitong Cao 说。

　　“美国的出口管制基本上将中国公司逼入了一个角落，他们必须利用有限的计算资源提高工作效率，”卡内基国际和平基金会的人工智能研究员马特·希恩（Matt Sheehan）说。“未来我们可能会看到很多与缺乏计算相关的整合。”

　　这可能已经开始发生了。两周前，阿里云宣布已与李开复创立的北京初创公司 01.AI 合作，合并研究团队并建立“工业大型模型实验室”。

　　“人工智能行业出现某种形式的分工是节能的，也是自然的，”塔夫茨大学教授 Cao 说。“AI 的快速发展要求中国公司具有敏捷性才能生存。”

海量资讯、精准解读，尽在新浪财经APP

责任编辑：何俊熹

中国顶级AI模型如何克服美国制裁

重庆时时彩贴吧