火烧屁股 不只开源还廉价好用 硅谷员工直呼 的DeepSeek大模型强在哪 (火烧屁股是不是成语)

admin1 6天前 阅读数 36 #财经

国产大模型公司深度求索(DeepSeek)公布的最新AI(人工智能)大模型在海外惹起开发者和投资者的热议。

1月20日,量化巨头幻方量化旗下大模型公司DeepSeek正式公布推理大模型DeepSeek-R1。作为一款开源模型,R1在数学、代码、天然言语推理等义务上的性能能够比肩OpenAI o1模型正式版,并采纳MIT容许协议,支持不要钱商用、恣意修正和衍生开发等。目前,在国外大模型排名榜Chatbot Arena上,DeepSeek-R1的基准测试排名曾经升至全类别大模型第三,与OpenAI的ChatGPT-4o最新版并列,并在品格控制类模型(StyleCtrl)分类中与OpenAI的o1模型并列第一。

更令市场惊讶的是,据DeepSeek引见,R1的预训练费用只需557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运转55天成功,仅是OpenAI GPT-4o模型训练本钱的不到十分之一。DeepSeek表示,R1在后训练阶段大规模经常经常使用了强化学习技术,在仅有极少标注数据的状况下,极大优化了模型推理才干。此外,DeepSeek不只将R1训练技术一切地下,还蒸馏了6个小模型向社区开源,支持用户借此训练其他模型。

开源模型正在赶超,比OpenAI廉价九成

一经推出,DeepSeek-R1便仰仗其“物美价廉”的特性在海外开发者社区中引发了惊扰。在API定价方面,DeepSeek R1服务对每百万输入token收取0.55美元,对每百万输入token收取2.19美元/百万,而OpenAI最新版o1模型的相应不要钱区分为15美元/百万和60美元/百万。在海外AI社区中小有名望的研讨者Shubham Saboo表示,作为一款“100%开源”的模型,R1比OpenAI o1廉价96.4%,同时提供相似的性能,倡议曾经订阅ChatGPT的开发者“丢弃漂浮本钱”。

除了性能方面的突出表现外,DeepSeek还给出了新的AI大模型搭建思绪。英伟达初级研讨迷信家Jim Fan表示,DeepSeek-R1或许是“首个展现了RL(强化学习)飞轮可以发扬作用且能带来继续增长的OSS(开源软件)项目”。其中,“飞轮”用来描画AI系统中自我强化、正向循环的环节。DeepSeek的论文显示,不同于过去AI模型往往依赖于监视微调(SFT,指AI模型经过已标注的数据启动训练),R1完全由强化学习驱动,证明了直接强化学习是可行的。

Jim Fan写道:“我们正处于一个奇异的时期线上,一家非美国公司正在践行OpenAI最后的使命,即成功真正开通的前沿研讨并让一切人受益。这种状况简直无法了解。最有文娱性的结果却是或许性最大的结果。”

硅谷知名投资机构A16z的合伙人、Mistral AI董事会成员Anjney Midha表示:“从斯坦福到麻省理工,DeepSeek-R1简直在一夜之间成为美国顶尖大学研讨人员的首选模型。”德国马克斯·普朗克量子光学研讨所AI迷信家实验室担任人马里奥·克伦(Mario Krenn)也盛赞DeepSeek-R1的开通性,相比之下,OpenAI旗下的模型“实质上都是黑箱”。

仰仗极低的训练本钱,DeepSeek-R1也让华尔街和投资者感到了震撼。1月24日,参投过OpenAI、Databricks、Character.AI等知名企业的风险投资巨头安德森·霍洛维茨基金(Andreessen Horowitz)的结合开创人马克·安德森(Marc Andreesen)连转了几篇关于Deepseek-R1的推文,并对其启动了地下赞赏。他在X(原推特)平台上写道:“Deepseek R1是我见过的最令人惊叹和印象深化的打破之一——作为开源项目,它是对全球的一份深化馈赠。”

随后,法国企业家、推特别见首领阿诺德·贝特朗(Arnaud Bertrand)转发了安德森的推文,并称中国AI的展开速度令人冷傲:“Deepseek时辰不只是关于AI的,而是让全球看法到中国在技术和创新方面曾经赶上了美国,并且在某些范围甚至逾越了美国,虽然有人努力阻止这种状况的出现。”

在近日举行的2025年达沃斯论坛上,AI科技初创公司Scale AI开创人亚历山大·王(Alexandr Wang)表示,DeepSeek的AI大模型性能“大致与美国最好的模型相当”。去年12月,DeepSeek公布上一代模型V3后,Alexandr Wang就在X平台上评价道:“DeepSeek-V3带给外界的阅历是:当美国人在休息时,中国人在任务,并以更廉价、更快、更强的产品迎头赶上。”

而Meta首席AI迷信家杨立昆(Yann LeCun)指出,比起“中国AI跨越了美国”的观念,DeepSeek-R1更关键的是证明了“开源模型正在跨越公用模型”:“DeepSeek得益于开源研讨和开源项目(例如PyTorch和来自Meta的Llama)。这就是开通研讨与开源的力气。”

1月26日,360开创人周鸿祎发视频谈“中国大模型DeepSeek反超GPT”,称中美AI竞争“最终肯定是中国胜利”,就像中国曾经在制造业范围打败了美国:“DeepSeek这家公司最近的表现简直逆天,我置信未来假定要对立美国的AI技术霸权,中国大模型技术复仇者联盟战队里肯定有DeepSeek的一份,由于这家公司和它的开创人十分低调,他们技术才干和未来前景被市场严重低估了。”

AI竞赛展开减速,“烧钱”潮流能否继续

同时,市场末尾猜想,DeepSeek-R1的横空出生能否会影响一味“砸钱”投入AI竞赛的美国科技巨头们。剖析指出,AI行业竞争或将以比预想中更快的速度加剧,并有或许影响到抢先AI配件企业的支出。

加州大学伯克利分校的AI政策研讨员Ritwik Gupta表示,DeepSeek-R1的出现证明了“AI才干没有技术护城河”,并称“中国的系统工程师人才库比美国大得多,他们懂得如何充沛运行计算资源来更高效地训练和运转模型”。

1月23日,一名Meta员工在匿名职场论坛Teamblind上发帖称,Meta外部曾经由于DeepSeek-R1而进入“恐慌方式”。这位员工写道:“Meta的工程师们正在分秒必争地剖析DeepSeek,试图复制其中一切或许的技术,控制层正为生成式AI研发部门的巨额投入而忧虑。”

该员工表示,DeepSeek-R1的训练本钱不到550万美元,而Meta的生成式AI部门里“每位指点的薪资都逾越了这个数字”:“(AI部门)本应是一个以工程为中心的小型组织,但由于很多人都想出去分一杯羹,人为收缩了组织的规模,结果人人都是输家。”

随后,有认证为谷歌员工的网友回复上述言论称:“DeepSeek做的事情很疯狂。不只是Meta,OpenAI、谷歌和Anthropic都由于他们而火烧屁股。这是一件喜事,我们可以见证地下竞争对创新的推进作用。”

或许是由于感遭到了竞争压力,Meta的CEO马克·扎克伯格(Mark Zuckerburg)于24日在旗下社交平台上表示,公司方案在2025年投资600亿至650亿美元用于资本支出,并方案大幅扩张AI团队。到2025年年底,Meta将拥有逾越130万个GPU。扎克伯格称“往年将是AI的关键一年”,公司还将在路易斯安那州树立一座价值100亿美元的数据中心。

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门