再震欧美同行 夜袭 OpenAI!DeepSeek开源最强推理模型R1
中国的 OpenAI,出现了。
对标 OpenAI o1 正式版的国产大模型来了!
1 月 20 日晚,DeepSeek(深度求索)公司公布推理模型 DeepSeek-R1 正式版,同步开源模型权重,并支持用户运行模型输入、经过模型蒸馏等方式训练其他模型。
网友热评: 这,才是真正的 。才干相当于一个月 200 美元的 ChatGPT o1 版本,却完全不要钱 。
不止如此,DeepSeek 一同开源的还有「技术报告」,那些训练 R1 时踩过的坑、做过的事统统讲给你听,只为铺平 AGI 的路。
第一时期阅读这份技术报告后,英伟达初级研讨迷信家 Jim Fan 带来了新颖解读,值得我们大声齐读:
「我们生活在这样一个时代:由非美国公司坚持 OpenAI 最后的使命——做真正开通的前沿研讨、为一切人赋能。这似乎讲不通,但戏剧性的往往最有或许出现。
DeepSeek-R1 不只开源了大批模型,还暴露了一切训练秘密。他们或许是第一个显示 RL(强化学习)飞轮发扬关键作用、继续增长的 OSS 项目。
影响可以经过『外部成功了 ASI』或『草莓方案』等神话称号来成功。也可以经过方便地转储原始算法和 matplotlib 学习曲线来出现影响。」
中国公司 DeepSeek,正在成功赶超 OpenAI 的使命
DeepSeek-R1:
实力派选择「秀肌肉」
「DeepSeek-R1」的公布,摆明了是:有实力所以明晃晃地秀肌肉!
这首先体如今它不整期货那一套,而是「公布即上线」 ,如今,你就可以在 DeepSeek 官方与 App 体验最新的推理模型 DeepSeek-R1,随意体验随意用,不要钱。
登录 DeepSeek 官方或官方 App,翻开「深度思索」方式,即可调用最新版 DeepSeek-R1 成功各类推理义务。|图片来源:DeepSeek
DeepSeek-R1 也同步上线了 API,对用户开通思想链输入,经过设置 model='deepseek-reasoner' 即可调用。
值得留意的是 DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输入 tokens 16 元。看上方这这图你会有更直接的体感,输入 API 多少钱只需 OpenAI o1 的 3%。 低价面前,显然仍是秀肌肉,多少钱实力展现了技术实力——从 Infra 层面降本的技术才干。
图中深蓝色柱子代表 DeepSeek-R1,剩下的灰色、浅蓝、青浅灰区分是 OpenAI o1 不同版本的多少钱。|来源:DeepSeek
第三波「秀肌肉」体如今开源开通 DeepSeek-R1 开源模型权重简直是选择了最开通的容许证和用户协议,开源 License 分歧经常经常使用 MIT,产品协议明白可「模型蒸馏」,主打一个让大家多多来基于它做二次开发、集成。DeepSeek 甚至主动给大家示范引导将 R1 作为教员模型来蒸馏出一个更小但仍有实力的模型,「经过 DeepSeek-R1 的输入,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项才干上成功了对标 OpenAI o1-mini 的效果」。
理想上 ,模型开源选择不同的 License 面前大有学问,这直接表现不同模型厂商的开通水平,更表现开源面前的目的和战略。 比如像 Llama、Qwen、GPT-2 等模型就不止开通权重,还开通了模型训练的源代码,这或许是为了追求衍生模型的兴盛。而 DeepSeek-R1 选择只开通权重,但换成了规范化、宽松的 MIT License,更多还是为了让更多开发者能用起来,感受 DeepSeek-R1 的才干。
我们再来经过 几大支流测试基准来感受一下 DeepSeek-R1 的实力 。「性能对齐 OpenAI-o1 正式版 DeepSeek-R1 在后训练阶段大规模经常经常使用了强化学习技术,在仅有极少标注数据的状况下,极大优化了模型推理才干。在数学、代码、自然言语推理等义务上,性能比肩 OpenAI o1 正式版。」
图片来源:DeepSeek
关于 DeepSeek-R1 带来的直观感受,硅基流动结合开创人杨攀表示, 不止模型才干和性能出色,最近两个模型 (R1 和 V3) 在训练技术和模型底层架构上都做了抢先全球的创新,而且其论文开通水平也震惊了业界。
在一并地下的模型技术报告中,DeepSeek 将「DeepSeek-R1」训练技术一切地下,「旨在促进技术社区的充沛交流与创新协作」。
依据技术报告,硅基流动开创人&CEO 袁进辉称,DeepSeek-R1 是无人区的探求和发现。|来源:即刻
关于开源模型加技术报告,开源社结合开创人林旅强此前向极客公园表示, 开源是最好的「秀技术肌肉」的方式 ,同时「有的开源模型只开源、不讲他是怎样做的,但是 契合大家等候的开源模型是要搭配技术报告,等于是发 paper 了。开源模型不够的,由于模型是黑盒子,技术报告会说明一些东西 。DeepSeek 他们是很透明地把他的技术报告拿来地下,即使肯定水平还是会捂着掖着,但是曾经是开得比拟有态度。 今天全球范围的学术派还是会以为,你把一个东西做出来再以开源的方式,是有学术追求的。 」
假定 DeepSeek 的目的是真正抵达 AGI,就一直要求把踩过的坑、做过的事情开通出来,让大家少走一点弯路,开通才干让整个行业更快抵达 AGI,他补充道。
最后,我们来随机看一些用户实测评价 (截图来源:X.com):
Twitter 用户盛赞 R1 的实力|图片来源:X
DeepSeek,还有什么
惊喜是我们不知道的?!
虽然昨晚 DeepSeek-R1 的公布引发了「这才是 Open AI 吧」「西方的 OpenAI」等一片赞美。但 DeepSeek 强得十分扎实、片面。
去年在 2024 年 11 月 20 日公布 DeepSeek-R1-Lite 预览版时,美国著名半导体与 AI 咨询机构 Semianalysis 开创人 Dylan Patel 就坐不住了,第一时期下场「提示」大家: 他们有 5 万张 H100 !请不要以为他们只需 1 万张 A100 !
由于家喻户晓的要素,这大约率不是理想,却能反映 DeepSeek-R1-Lite 的强悍到让行业紧张。
一个月后,DeepSeek 上线并同步开源了媲美 GPT-4o 和 Claude 3.5 Sonnet 的模型「DeepSeek-V3」,并附上了详实的技术报告。这一次性性, 简直惊扰了整个硅谷 圈。 卡神(OpenAI 开创团队、前 Tesla AI 总监 Andrej Karpathy)、Alexandr Wang(Scale.ai 开创人)、田渊栋(Meta AI 迷信家)、贾扬清(Lepton AI 开创人)……人均一句「难以置信」。就连 Sam Altman 都忍不住出来酸一把「复刻曾经被验证过奏效的东西是容易的」。
DeepSeek-V3 公布后,Sam Altman 疑似喊话 DeepSeek。|截图来源:X.com
随着模型性能逐渐走向全球第一梯队,DeepSeek 也迎来了新的展开契机。
过去一年半,DeepSeek 专注于模型和研讨,但从往年末尾,DeepSeek 着手做运转了。
2025 年 1 月 15 日,DeepSeek 推出移动端 AI 助手「DeepSeek」App。目前看,DeepSeek App 跟网页版性能分歧,关键有两特性能:联网搜寻和深度思索,主打一个繁复,聊天记载也会同步显示在手机端和网页端,尚未针对移动端启动特定性能的打磨,也没有市面上 AI 助手类 App 丰厚、fancy 的性能,更像是一个能让你在手机上体验 DeepSeek 最新模型的入口。
DeepSeek App 展现图|来源:Apple Store
对此,一位投资人向极客公园解释 DeepSeek 末尾做运转面前或许的战略转向:「前期 DeepSeek 靠自己的算力优点积聚出了模型技术的抢先度。前期要补数据,发 App 是补数据的手段之一。 接入用户数据和场景,可以协助他更好地启动模型才干的迭代和更新 。」
同时,有了 DeepSeek-R1 和其他模态、类型越来越好的模型,可以等候未来 DeepSeek 在比如代码模型/运转里有更保守的表现,惊喜才刚刚末尾。
揭秘DeepSeek:一个更极致的中国技术理想主义故事 |36氪独家
中国的技术理想主义故事,DeepSeek以其共同的方式在大模型创业公司中独树一帜。 这家由量化私募巨头幻方支持的公司,过去一年的出乎意料之举——推出一款名为DeepSeek V2的开源模型,不只让其一跃成名,更引发了中国大模型多少钱战的风暴。 DeepSeek V2的推理本钱仅需每百万token 1块钱,这一性价比使得它在AI界被誉为“拼多多”,而这一创新之举,竟引发了包括字节、腾讯、网络、阿里在内的大厂纷繁降价,展现出中国大模型范围史无前例的竞争态势。 DeepSeek之所以能成功这一惊人的性价比,面前是其对模型架构的全方位创新。 它提出了一种崭新的MLA架构,将显存占用降至过去常用的MHA架构的5%-13%,同时首创的DeepSeekMoESparse结构,使计算量降到极致,从而成功了本钱的大幅降低。 这一创新不只在硅谷被赞誉为“西方的奥秘力气”,更是被OpenAI前员工Andrew Carr视为“充溢惊人智慧”的论文。 DeepSeek的开创人梁文锋,这位80后的技术理想主义者,以其低调作风和弱小的技术才干,引领着团队在研讨和技术上不时探求。 他不只在基础模型和前沿创新上投入少量资源,更是强调“原创式创新”的关键性,以为中国的大模型创业者不应仅仅局限于运行创新,而应积极介入全球技术创新的激流。 DeepSeek在选择和开展途径上异乎寻常,专注于研讨和技术探求,至今未涉足toC运行,也没有片面思索商业化,而是坚决选择开源路途,甚至未启动过融资。 这种战略使得它在业界中显得共同而被无视,但同时,它在社区中经过用户自发传达,成为了一股无法无视的力气。 面对外界的质疑和应战,DeepSeek开创人梁文锋坚持了冷静和自信,强调创新的本钱和决计的关键性,以为“更多的投入并不一定发生更多的创新”,并坚信中国AI未来无法能永远处在跟随的位置,必需介入到全球创新的浪潮中去。 他坚信,经过不时增加与西方技术社区在训练效率、数据效率上的差距,DeepSeek能够成功其技术愿景,推进中国AI向前开展。 在与DeepSeek的开创人梁文锋的深化对话中,我们看到了一个技术理想主义者的声响,他提示我们看到时代的惯性,强调原创式创新的价值,并奖励我们看到硬核创新的力气。 在大模型范围,DeepSeek不只是一个技术创新的先锋,更是一个推进中国科技界思索和执行的关键力气。
新AI模型上线:GPT-4o mini 与 DeepSeek
集简云推出新AI模型,包括GPT-4o mini与DeepSeek。 OpenAI的GPT-4o mini模型具有多模态推理才干,多少钱大幅低于GPT 3.5 turbo与GPT 4o,性能略低于GPT 4o,但本钱清楚降低。 集简云今天上线了此模型,支持多个产品经常使用。 DeepSeek的DeepSeek-V2模型参数量到达236B,每个token激活21B参数,支持128K token的上下文长度,性能接近GPT-4-Turbo,多少钱仅为其近百分之一。 DeepSeek-V2在大模型主流榜单中表现出色。 集简云现已上线DeepSeek的Chat与Coder模型,经常使用最新的DeepSeek-V2版本。 集简云提供多款OpenAI模型调用方式,包括不要钱版本、付费版本及原生版本,以及DeepSeek内置与原生运行。 不要钱版本Token数量限制为500,付费版本无额外Token数量限制。 语聚AI是集简云推出的企业级AI运行搭建平台,支持数十种AI运行模型经常使用,新增模型可在语聚GPT、知识助手与对话助手等产品中运行。 集简云的超级软件衔接器性能无需开发,无需代码知识,即可轻松衔接数百款软件,构建智能化与智能化的业务流程。 每月可节省少量人工本钱,推进企业增长。 官方地址:集简云官方。
版权声明
本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。