爆火的DeepSeek或许引发美国芯片考察 (爆火的的moba端游)

admin1 23小时前 阅读数 36 #银行

正如大家所知,“西方微妙力气”DeepSeek近期在中国、美国的科技圈遭到普遍关注,甚至被以为是大模型行业最大“黑马”。

近期,中国 AI 大模型创业公司DeepSeek(深度求索)正式发布 DeepSeek-R1大模型,称在数学、代码、天然言语推理等义务上,性能比肩OpenAI o1正式版。

这一信息震动了全球 AI 圈,也让美国 AI 公司研讨人员吃惊于中国竟赶超了美国大模型技术。

一位Meta的工程师在美国科技公司员工社区Blind中这样写道,“Meta的生成式AI部门正处于恐慌中。这一切始于DeepSeek,它使得 Llama 4 在基准测试中曾经落后。雪上加霜的是:那个不知名的中国公司,仅有550万美元的训练预算。工程师们正在疯狂地剖析DeepSeek,并试图从中复制一切或许的东西。”

媒体AGI了解到,截至发稿前,DeepSeek移动端在苹果 App Store运转商店排行第八,跨越Google Gemini、Microsoft Copilot等美国生成式 AI 产品,下载热度仅次于ChatGPT。同时,OpenAI、字节跳动、阿里通义以及智谱、Kimi月之暗面等国际外团队都在积极研讨DeepSeek,OpenAI和字节跳动都在思索与DeepSeek展开研讨协作。

达沃斯全球经济论坛时期,Scale AI开创人亚历山大·王(Alexandr Wang)直言,DeepSeekAI大模型性能大致与美国最好的模型相当。他以为,过去十年来,美国或许不时在 AI 竞赛中抢先于中国,但DeepSeek的AI大模型发布或许会“改动一切”。

值得细品的是Alexandr Wang说的另一段话:“DeepSeek大约有5万张H100计算卡,他们显然不能议论这件事,由于这违犯了美国实施的出口管制。我以为这是真的,我以为他们的筹码比其他人预期的要多,但也会继续行进。他们将遭到芯片控制和出口管制的限制。”

Alexandr Wang暗示DeepSeek将会遭到美国管制。

DeepSeek开创人、头部量化私募幻方量化开创人梁文锋曾表示,DeepSeek面临的关键制约要素不是资金,而是高端算力的经常经常使用权,这些芯片关于训练先进AI模型至关关键。

随着AMD证明DeepSeek正在经常经常使用最强 AI 芯片之一的MI300X启动大模型训练,关于中国 AI 如何打破围栏实施大模型训练,将成为关键话题。

朝美国硅谷开的“这一枪”用时4年

假定你在 AI 圈,关于DeepSeek和梁文锋曾经有很多文章启动引见了。总结来说有几点:

1、梁文锋是典型的“小镇做题家”:出生于广东湛江的五(三)线城市、17岁考入浙江大学,2010年硕士毕业于浙江大学信息与通讯工程专业。

2、硕士毕业后,梁文锋就率领团队末尾经常经常使用机器学习等技术探求全智能量化买卖。2010年,他和浙江大学校友创立了雅克比投资。

3、2015年6月,30岁的梁文锋与“股东出轨女下属”的徐进结合兴办杭州幻方科技有限公司(幻方量化、High-Flyer),依托数学与人工智能启动量化投资,立志成为全球顶级的量化对冲基金。

4、2021年,幻方量化控制规模已打破了1000亿元,同一年,梁文锋末尾找寻“副业”,找供应商买了数千张英伟达GPU显卡(事先应该买的是RTX4090、A100、L40等),发力AI技术。而到2023年,幻方量化控制总规模已降到400多亿元。

5、2023年终,幻方量化曾宣布自身拥有1万张英伟达A100 GPU卡,后来我们了解到,事先幻方量化说了假话,它事先仅拥有数千张A100卡而已,剩下则是消费卡、老款显卡,还有用云服务形式租用A100显卡。业内人士将其视为,一个亿万富翁寻觅新喜好时的“乖僻行为”。

6、DeepSeek热潮很大水平上与国际媒体所谓“中国大模型企业跨越美国”这类东升西降的热捧是分不开。其实,DeepSeek技术并未稀罕到“惊叹”水平,DeepSeek V1版本的时辰很粗糙,事先大批经常经常使用GPT的开源数据,甚至一度调用过GPT-3.5 API接口。如今的“AI界的拼多多”,自身是AI infra技术和团队 AI 技术才干强。因此,媒体用DeepSeek单一模型证明中国 AI 技术跨越美国,是逻辑上的“以偏概全”错误,DeepSeek是 AI 技术迭代的受益者,但这并不代表它在技术上具有了跨越OpenAI等抢先企业的实力。

7、DeepSeek的实例进一步标明,AI技术并不存在清楚的“护城河”,模型技术的跨越已成为常态,“六小虎”并不是独一头部。但是,AI算力规模的增长以及终年的模型迭代能否能够真正跨越OpenAI,才是选择AI大模型展开的关键要素。

8、DeepSeek不融资、短期没有上市志愿,良好的现金流促使DeepSeek招聘大批 AI 研讨人才,构成所谓“研讨院”气氛,只担任前沿,不担任商业,甚至团队十分懂基础设备和芯片原理。此外,他还从对冲基金行业带走了最好的团队介入DeepSeek。

正如图灵奖得主、Meta AI首席迷信家杨立昆(Yann LeCun)所说,“给那些看到 DeepSeek 的表现后,觉得‘中国在 AI 方面正在跨越美国’的人,你们的解读是错的。正确的解读应该是,‘开源模型正在跨越专有模型’。”

理想上,从置办千张GPU搭建 AI 算力末尾,DeepSeek大模型跨越OpenAI之路用时4年。

去年 12 月底,DeepSeek发布的DeepSeek-V3开源基础模型性能,与GPT-4o和Claude Sonnet 3.5等顶尖模型相近,但训练本钱极低。整个训练在2048块英伟达H800 GPU集群上成功,仅破费约557.6万美元,不到其他顶尖模型训练本钱的十分之一。

GPT-4o等模型的训练本钱约为1亿美元,至少在万个GPU量级的计算集群上训练,而且经常经常使用的是性能更为优越的H100 GPU。例如,同为顶尖大模型,去年发布的Llama 3.1在训练环节中经常经常使用了16,384块H100 GPU,消耗了DeepSeek-V3 11倍的计算资源,本钱逾越6000万美元。

如今,虽然DeepSeek如今尚未发布训练推理模型R1的完整本钱,但它发布了API的定价,每百万输入 tokens 1 元-4元人民币,每百万输入 tokens 16 元。这个不要钱大约是 OpenAI o1运转本钱的三十分之一。

本钱进一步下降的同时,DeepSeek R1的技术关键点在于其创新的训练方法——DeepSeek-R1-Zero路途,该路途直接将强化学习(RL)运转于基础模型,无需依赖监视微调(SFT)和已标注数据。经过树立方便的准确性处分和格式要求规则,DeepSeek R1在无监视数据的状况下成功自我退步,取得弱小的推理才干。在AIME 2024基准测试中,DeepSeek R1-Zero展现了高达86.7%的准确率,证明了直接强化学习在训练初级推理模型中的有效性。

艾伦人工智能研讨所迷信家内森·兰伯特(Nathan Lambert)表示,R1的论文是推理模型研讨不确定性中的一个关键转机点,由于到目前为止,AI 推理模型不时是工业研讨的一个关键范围,但缺乏一篇具有开创性的论文。

据知识分子,中山大学集成电路学院助理教授王美琪表示,直接强化学习方法与 DeepSeek 团队在多版模型迭代中的一系列工程优化技术(如简化奖惩模型设计等)相结合,有效下降了大模型的训练本钱。直接强化学习防止了大批人工标注数据的任务,而奖惩模型的简化设计等则增加了对计算资源的需求。

“DeepSeek 的运转形式就像DeepMind早期一样,”一位 AI 投资者表示,它地道专注于研讨和工程,而非商业化。

英伟达初级研讨迷信家Jim Fan直言,“DeepSeek是本年度开源大言语模型范围的最大黑马。”

算力需求仍是大模型资源“困境” 美国出口管制影响不小

关于DeepSeek,英国《天然》杂志以为,虽然美国对华半导体出口管制启动限制,但中国公司还是成功制造了DeepSeek R1。但西雅图 AI 研讨员 Francois Chollet以为,“高效运行资源比单纯的计算规模更关键。”

梁文锋此前也指出,关于DeepSeek来说,算力更高的先进 AI 芯片关于训练先进AI模型至关关键。

如今,Alexander Wang直抒己见地表达美国政府要求为了抢先优点对DeepSeek的 AI 芯片启动考察和管制。

Alexandr Wang出生于1997年,他于19岁那年从美国麻省理工学院停学,创立的AI公司Scale AI估值超百亿美元,取得了包括Y Combinator、英伟达、AMD风投、亚马逊、Meta等巨头科技公司投资,该公司为OpenAI、谷歌和 Meta等提供训练数据。

此前,Alexandr Wang发文表达对中国 AI 追逐美国的担忧。他以为,DeepSeek-V3的发布给外界的阅历是,在美国人休息时,中国人在任务,并以更廉价、更快、更强的产品迎头赶上。

OpenAI 首席财务官 Sarah Friar也以为,中美之间的 AI 竞争不是方便的口水战,这是一场真实的竞争,双方正在鼎力投资这一范围。“我们曾经看到特朗普政府情愿积极介入,无论是从经济角度,还是从监管和商业竞争的角度。我们很等候末尾实质性的协作。”

以后,美国出口管制成为中国 AI 行业展开的关键要素之一。

北京时期1月15日晚,美国商务部工业和安保局 (BIS) 修订了《出口管制条例》(EAR),在实体清单中分两批,共介入了25个中国实体,包括智谱旗下9个实体等。

这是首个中国AI大模型公司被美国列入“实体清单”。

对此,智谱发声明回应称,“美国商务部工业和安保局(BIS)拟将智谱及子公司增列至出口管制实体清单。这一选择缺乏理想依据,我们对此表示猛烈拥戴。鉴于智谱掌握全链路大模型中心技术的理想,被列入实体清单不会对公司业务出现实质影响。智谱有才干也将更专注地为我们的用户和同伴提供全球一流的大模型技术、产品和服务。同时公司将继续介入全球人工智能竞争,坚持最高安保规范和公允、透明、可继续准绳,推进人工智能技术展开。”

在此之前,旷视、依图、云从、摩尔线程等大批 AI 公司被列入美国“实体清单”,关于一些 AI 软件公司来说有肯定影响——无法再训练出万亿规模大模型。

但是,DeepSeek、字节跳动等中国企业的出现和发力 AI 范围,让美国看法到管制无法阻止中国对标OpenAI,继续推进 AI 技术抢先。

《福布斯》发文指出,DeepSeek让全球看法到,“中国并未分开这场(人工智能的)竞赛。”

“假定最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从久远来看,这或许会让中国成为研发 AI 的中心。”《媒体》称。

不过,DeepSeek依然面临竞争对手囤积大批算力应战。本周,特朗普宣布,OpenAI与甲骨文、日本软银集团共同创立一家5000亿美金投资新方案公司“星际之门”,立刻在美国至少投资 1000 亿美元用于 AI 基础设备。同时,马斯克的 xAI 也正在大规模扩充其超级计算机,以容纳逾越100万个 GPU,以协助训练其 Grok AI 模型。

这时我就想起了百度开创人、CEO李彦宏的话:“开源模型会越来越落后”。

如今看来,DeepSeek证明开源并未落后,甚至给中国 AI 跨越美国的目的带来更多的心愿。但是,DeepSeek能否因此面临美国政府的针对性限制,最终形成模型训练和算力层面面临制约,依然存在微小不确定性。

“以后,DeepSeek 拥有中国最大的先进计算集群之一,”梁文锋的商业协作同伴对外称,“他们如今有足够的资源容量,但不会太久。”

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门