再震欧美同行夜袭 OpenAI！DeepSeek开源最强推理模型R1

admin1 3天前阅读数 41 #银行

文章标签夜袭再震欧美同行 OpenAI！DeepSeek开源最强推理模型R1

中国的 OpenAI，出现了。

对标 OpenAI o1 正式版的国产大模型来了！

1 月 20 日晚，DeepSeek（深度求索）公司公布推理模型 DeepSeek-R1 正式版，同步开源模型权重，并支持用户运行模型输入、经过模型蒸馏等方式训练其他模型。

网友热评： 这，才是真正的 。才干相当于一个月 200 美元的 ChatGPT o1 版本，却完全不要钱 。

不止如此，DeepSeek 一同开源的还有「技术报告」，那些训练 R1 时踩过的坑、做过的事统统讲给你听，只为铺平 AGI 的路。

第一时期阅读这份技术报告后，英伟达初级研讨迷信家 Jim Fan 带来了新颖解读，值得我们大声齐读:

「我们生活在这样一个时代：由非美国公司坚持 OpenAI 最后的使命——做真正开通的前沿研讨、为一切人赋能。这似乎讲不通，但戏剧性的往往最有或许出现。

DeepSeek-R1 不只开源了大批模型，还暴露了一切训练秘密。他们或许是第一个显示 RL（强化学习）飞轮发扬关键作用、继续增长的 OSS 项目。

影响可以经过『外部成功了 ASI』或『草莓方案』等神话称号来成功。也可以经过方便地转储原始算法和 matplotlib 学习曲线来出现影响。」

中国公司 DeepSeek，正在成功赶超 OpenAI 的使命

DeepSeek-R1：

实力派选择「秀肌肉」

「DeepSeek-R1」的公布，摆明了是：有实力所以明晃晃地秀肌肉！

这首先体如今它不整期货那一套，而是「公布即上线」 ，如今，你就可以在 DeepSeek 官方与 App 体验最新的推理模型 DeepSeek-R1，随意体验随意用，不要钱。

DeepSeek-R1 也同步上线了 API，对用户开通思想链输入，经过设置 model='deepseek-reasoner' 即可调用。

值得留意的是 DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元（缓存命中）/ 4 元（缓存未命中），每百万输入 tokens 16 元。看上方这这图你会有更直接的体感，输入 API 多少钱只需 OpenAI o1 的 3%。 低价面前，显然仍是秀肌肉，多少钱实力展现了技术实力——从 Infra 层面降本的技术才干。

图中深蓝色柱子代表 DeepSeek-R1，剩下的灰色、浅蓝、青浅灰区分是 OpenAI o1 不同版本的多少钱。｜来源：DeepSeek

第三波「秀肌肉」体如今开源开通 DeepSeek-R1 开源模型权重简直是选择了最开通的容许证和用户协议，开源 License 分歧经常经常使用 MIT，产品协议明白可「模型蒸馏」，主打一个让大家多多来基于它做二次开发、集成。DeepSeek 甚至主动给大家示范引导将 R1 作为教员模型来蒸馏出一个更小但仍有实力的模型，「经过 DeepSeek-R1 的输入，蒸馏了 6 个小模型开源给社区，其中 32B 和 70B 模型在多项才干上成功了对标 OpenAI o1-mini 的效果」。

理想上 ，模型开源选择不同的 License 面前大有学问，这直接表现不同模型厂商的开通水平，更表现开源面前的目的和战略。 比如像 Llama、Qwen、GPT-2 等模型就不止开通权重，还开通了模型训练的源代码，这或许是为了追求衍生模型的兴盛。而 DeepSeek-R1 选择只开通权重，但换成了规范化、宽松的 MIT License，更多还是为了让更多开发者能用起来，感受 DeepSeek-R1 的才干。

我们再来经过 几大支流测试基准来感受一下 DeepSeek-R1 的实力 。「性能对齐 OpenAI-o1 正式版 DeepSeek-R1 在后训练阶段大规模经常经常使用了强化学习技术，在仅有极少标注数据的状况下，极大优化了模型推理才干。在数学、代码、自然言语推理等义务上，性能比肩 OpenAI o1 正式版。」

图片来源：DeepSeek

关于 DeepSeek-R1 带来的直观感受，硅基流动结合开创人杨攀表示， 不止模型才干和性能出色，最近两个模型 (R1 和 V3) 在训练技术和模型底层架构上都做了抢先全球的创新，而且其论文开通水平也震惊了业界。

在一并地下的模型技术报告中，DeepSeek 将「DeepSeek-R1」训练技术一切地下，「旨在促进技术社区的充沛交流与创新协作」。

依据技术报告，硅基流动开创人&CEO 袁进辉称，DeepSeek-R1 是无人区的探求和发现。｜来源：即刻

关于开源模型加技术报告，开源社结合开创人林旅强此前向极客公园表示， 开源是最好的「秀技术肌肉」的方式 ，同时「有的开源模型只开源、不讲他是怎样做的，但是 契合大家等候的开源模型是要搭配技术报告，等于是发 paper 了。开源模型不够的，由于模型是黑盒子，技术报告会说明一些东西 。DeepSeek 他们是很透明地把他的技术报告拿来地下，即使肯定水平还是会捂着掖着，但是曾经是开得比拟有态度。 今天全球范围的学术派还是会以为，你把一个东西做出来再以开源的方式，是有学术追求的。 」

假定 DeepSeek 的目的是真正抵达 AGI，就一直要求把踩过的坑、做过的事情开通出来，让大家少走一点弯路，开通才干让整个行业更快抵达 AGI，他补充道。

最后，我们来随机看一些用户实测评价 （截图来源：X.com）：

Twitter 用户盛赞 R1 的实力｜图片来源：X

DeepSeek，还有什么

惊喜是我们不知道的？！

虽然昨晚 DeepSeek-R1 的公布引发了「这才是 Open AI 吧」「西方的 OpenAI」等一片赞美。但 DeepSeek 强得十分扎实、片面。

去年在 2024 年 11 月 20 日公布 DeepSeek-R1-Lite 预览版时，美国著名半导体与 AI 咨询机构 Semianalysis 开创人 Dylan Patel 就坐不住了，第一时期下场「提示」大家： 他们有 5 万张 H100 ！请不要以为他们只需 1 万张 A100 ！

由于家喻户晓的要素，这大约率不是理想，却能反映 DeepSeek-R1-Lite 的强悍到让行业紧张。

一个月后，DeepSeek 上线并同步开源了媲美 GPT-4o 和 Claude 3.5 Sonnet 的模型「DeepSeek-V3」，并附上了详实的技术报告。这一次性性， 简直惊扰了整个硅谷 圈。卡神（OpenAI 开创团队、前 Tesla AI 总监 Andrej Karpathy）、Alexandr Wang（Scale.ai 开创人）、田渊栋（Meta AI 迷信家）、贾扬清（Lepton AI 开创人）……人均一句「难以置信」。就连 Sam Altman 都忍不住出来酸一把「复刻曾经被验证过奏效的东西是容易的」。

DeepSeek-V3 公布后，Sam Altman 疑似喊话 DeepSeek。｜截图来源：X.com

随着模型性能逐渐走向全球第一梯队，DeepSeek 也迎来了新的展开契机。

过去一年半，DeepSeek 专注于模型和研讨，但从往年末尾，DeepSeek 着手做运转了。

2025 年 1 月 15 日，DeepSeek 推出移动端 AI 助手「DeepSeek」App。目前看，DeepSeek App 跟网页版性能分歧，关键有两特性能：联网搜寻和深度思索，主打一个繁复，聊天记载也会同步显示在手机端和网页端，尚未针对移动端启动特定性能的打磨，也没有市面上 AI 助手类 App 丰厚、fancy 的性能，更像是一个能让你在手机上体验 DeepSeek 最新模型的入口。

DeepSeek App 展现图｜来源：Apple Store

对此，一位投资人向极客公园解释 DeepSeek 末尾做运转面前或许的战略转向：「前期 DeepSeek 靠自己的算力优点积聚出了模型技术的抢先度。前期要补数据，发 App 是补数据的手段之一。 接入用户数据和场景，可以协助他更好地启动模型才干的迭代和更新 。」

同时，有了 DeepSeek-R1 和其他模态、类型越来越好的模型，可以等候未来 DeepSeek 在比如代码模型/运转里有更保守的表现，惊喜才刚刚末尾。

揭秘DeepSeek:一个更极致的中国技术理想主义故事｜36氪独家

中国的技术理想主义故事，DeepSeek以其共同的方式在大模型创业公司中独树一帜。这家由量化私募巨头幻方支持的公司，过去一年的出乎意料之举——推出一款名为DeepSeek V2的开源模型，不只让其一跃成名，更引发了中国大模型多少钱战的风暴。 DeepSeek V2的推理本钱仅需每百万token 1块钱，这一性价比使得它在AI界被誉为“拼多多”，而这一创新之举，竟引发了包括字节、腾讯、网络、阿里在内的大厂纷繁降价，展现出中国大模型范围史无前例的竞争态势。 DeepSeek之所以能成功这一惊人的性价比，面前是其对模型架构的全方位创新。它提出了一种崭新的MLA架构，将显存占用降至过去常用的MHA架构的5%-13%，同时首创的DeepSeekMoESparse结构，使计算量降到极致，从而成功了本钱的大幅降低。这一创新不只在硅谷被赞誉为“西方的奥秘力气”，更是被OpenAI前员工Andrew Carr视为“充溢惊人智慧”的论文。 DeepSeek的开创人梁文锋，这位80后的技术理想主义者，以其低调作风和弱小的技术才干，引领着团队在研讨和技术上不时探求。他不只在基础模型和前沿创新上投入少量资源，更是强调“原创式创新”的关键性，以为中国的大模型创业者不应仅仅局限于运行创新，而应积极介入全球技术创新的激流。 DeepSeek在选择和开展途径上异乎寻常，专注于研讨和技术探求，至今未涉足toC运行，也没有片面思索商业化，而是坚决选择开源路途，甚至未启动过融资。这种战略使得它在业界中显得共同而被无视，但同时，它在社区中经过用户自发传达，成为了一股无法无视的力气。面对外界的质疑和应战，DeepSeek开创人梁文锋坚持了冷静和自信，强调创新的本钱和决计的关键性，以为“更多的投入并不一定发生更多的创新”，并坚信中国AI未来无法能永远处在跟随的位置，必需介入到全球创新的浪潮中去。他坚信，经过不时增加与西方技术社区在训练效率、数据效率上的差距，DeepSeek能够成功其技术愿景，推进中国AI向前开展。在与DeepSeek的开创人梁文锋的深化对话中，我们看到了一个技术理想主义者的声响，他提示我们看到时代的惯性，强调原创式创新的价值，并奖励我们看到硬核创新的力气。在大模型范围，DeepSeek不只是一个技术创新的先锋，更是一个推进中国科技界思索和执行的关键力气。

新AI模型上线：GPT-4o mini 与 DeepSeek

集简云推出新AI模型，包括GPT-4o mini与DeepSeek。 OpenAI的GPT-4o mini模型具有多模态推理才干，多少钱大幅低于GPT 3.5 turbo与GPT 4o，性能略低于GPT 4o，但本钱清楚降低。集简云今天上线了此模型，支持多个产品经常使用。 DeepSeek的DeepSeek-V2模型参数量到达236B，每个token激活21B参数，支持128K token的上下文长度，性能接近GPT-4-Turbo，多少钱仅为其近百分之一。 DeepSeek-V2在大模型主流榜单中表现出色。集简云现已上线DeepSeek的Chat与Coder模型，经常使用最新的DeepSeek-V2版本。集简云提供多款OpenAI模型调用方式，包括不要钱版本、付费版本及原生版本，以及DeepSeek内置与原生运行。不要钱版本Token数量限制为500，付费版本无额外Token数量限制。语聚AI是集简云推出的企业级AI运行搭建平台，支持数十种AI运行模型经常使用，新增模型可在语聚GPT、知识助手与对话助手等产品中运行。集简云的超级软件衔接器性能无需开发，无需代码知识，即可轻松衔接数百款软件，构建智能化与智能化的业务流程。每月可节省少量人工本钱，推进企业增长。官方地址：集简云官方。