一个 DeepSeek开创人 技术理想主义者 (一个deep breath)

admin1 19小时前 阅读数 697 #银行

近期,中国人工智能公司深度求索(DeepSeek)发布的DeepSeek-R1模型惊扰全球,经常经常使用极低的本钱成功了匹敌美国顶级AI模型的效果,失掉从业者的普遍赞美。许多研讨人员、投资者和西方媒体慨叹,中国AI模型令硅谷震惊,甚至或许改动大模型的研发规则。

随着DeepSeek爆火,其开创人梁文锋也遭到群众关注。作为一位17岁考入浙江大学、在量化投资和AI范围均取得惊人成就的“学霸”,梁文锋却不时坚持低调,很少出头出面。许多人猎奇,这位低调的85后创业者终究是如何取得成功。

用数学和AI启动量化投资

地下资料显示,梁文锋1985年出生于广东省湛江市。2002年,17岁的梁文锋考入浙江大学电子信息工程专业,并在2010年取得信息与通讯工程硕士学位。

在校时期,他对金融市场出现了浓重兴味。特地是在2008年全球金融危机迸发后,他曾率领团队经常经常使用机器学习技术剖析市场数据,尝试成功全智能量化买卖。这一阅历为梁文锋积聚了通常阅历,也为他日后的职业生涯奠定了坚实的基础。

毕业后,梁文锋首先进入了金融范围。2013年,他与浙大同窗徐进共同创立了杭州雅克比投资控制有限公司,并在2015年成立了杭州幻方科技有限公司,努力于经过数学和AI启动量化投资。

2016年,幻方量化推出首个基于深度学习的买卖模型,并末尾将GPU引入计算买卖仓位。在此之后,梁文锋不时扩展AI算法研讨团队,将AI技术深度融入量化战略,逐渐取代传统模型。2017年,幻方宣称成功投资战略片面AI化。2018年,幻方正式确立以AI为中心的展开战略。

但随着业务的加快扩展,计算资源有余的疑问逐渐显现。2019年,梁文锋率领团队自主研发了“萤火一号”训练平台。2020年末尾,总投资近2亿元、搭载了1100张GPU的“萤火一号”正式投入运作。2021年,幻方投入10亿元树立“萤火二号”。

幻方量化在2018年终次取得私募金牛奖,这是中国私募证券范围的最高奖项。2019年,梁文锋在当年的金牛奖颁奖仪式上宣布了主题演讲《一名程序员眼里中国量化投资的未来》,这是他少有的地下发言。

事先,梁文锋在演讲中表示,“量化投资的未来,是用技术让市场更有效率”。

在AI范围一鸣惊人

2023年,梁文锋宣布正式进军通用人工智能(AGI)范围,兴办了深度求索(DeepSeek)。据报道,DeepSeek包括开创人梁文锋在内,仅有139名工程师和研讨人员。相比之下,开发ChatGPT的OpenAI有1200名研讨人员,开发Claude模型的Anthropic则有500多名研讨人员。

尽管团队规模不大,DeepSeek在尔后一年多里取得了令人注目的效果。2024年5月,DeepSeek发布DeepSeek-V2模型,仰仗创新的模型架构和性价比引发关注。DeepSeek-V2的API定价为每百万tokens输入1元、输入2元,多少钱仅为美国OpenAI GPT-4 Turbo的百分之一。

DeepSeek解释称,DeepSeek-V2采纳了创新的架构,例如留意力机制方面的MLA(多头潜在留意力)和前馈网络方面的DeepSeekMoE架构等,以成功具有更高经济性的训练效果和更高效的推理。

据澎湃资讯报道,DeepSeek-V2的出现一度引发国际的大模型“多少钱战”,百度、阿里、字节跳动等大厂纷繁宣布大模型产品降价。对此,梁文锋在接受媒体采访时表示,DeepSeek有意成为行业鲇鱼,低价面前是心愿算力普惠。

去年12月26日,DeepSeek-V3模型发布,引发科技行业高度关注。DeepSeek网站发布的信息显示,DeepSeek-V3多项评测效果跨越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,甚至可以与GPT-4o、Claude 3.5-Sonnet等顶级闭源模型一较上下。

更有目共睹的是,DeepSeek-V3经常经常使用的本钱和算力极低,仅经常经常使用2048颗算力稍弱的英伟达H800 GPU,本钱约为557.6万美元。相比之下,OpenAI的GPT-4o训练本钱高达7800万美元。这意味着,DeepSeek-V3以十分之一的本钱成功了足以与GPT-4o竞赛的水平。

往年1月20日,DeepSeek进一步取得打破,正式发布DeepSeek-R1模型。该模型在数学、代码、天然言语推理等义务上,性能比肩OpenAI o1正式版。该模型在后训练阶段大规模经常经常使用强化学习(RL)技术,在仅有极少标注数据的状况下,极大优化了模型推理才干。

DeepSeek-R1、OpenAI-o1-1217和DeepSeek-V3的性能比拟DeepSeek微信群众号

这一系列成就震动全球科技行业。美国OpenAI开创成员之一安德烈·卡帕西(Andrej Karpathy)在社交媒体上赞美:“DeepSeek在有限资源下展现了惊人的工程才干,它或许重新定义大模型研发的规则。”

硅谷知名风险投资家马克·安德森(Marc Andreessen)将DeepSeek-R1的发布与美国总统特朗普入主白宫相提并论,他赞美这是“最令人惊叹的打破之一,给全球的一份意义深远的礼物”。

DeepSeek的成功与梁文锋在团队控制和技术研发上的共同战略有着亲密的相关。他组建了一支由外乡年轻程序员组成的团队,不依赖海归或初级技术专家,团队成员多为应届毕业生或任务阅历不逾越5年的年轻人。

梁文锋曾向媒体坦言,团队“并没有什么一目了然的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人”。他以为,“创新要求摆脱惯性,阅历有时会成为包袱。”

低调的“技术理想主义者”

从运转AI启动量化投资,到投身AI大模型研发,驱动梁文锋的却并不是来自商业方面的理由。他在有限的几次媒体采访中坦言:“幻方的关键班底里,很多人是做人工智能的。事先我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能或许是下一个最难的事之一,所以对我们来说,这是一个怎样做的疑问,而不是为什么做的疑问……假定必要求找一个商业上的理由,它或许是找不到的,由于划不来。”

他表示,“很多人会以为这里边有一个不为人知的商业逻辑,但其实,关键是猎奇心驱动……对AI才干边界的猎奇。”

DeepSeek不时坚持开源路途,主意向全球开发者分享了中心技术效果。在一些业内人士看来,梁文锋其实是一位低调的“技术理想主义者”。

去年,梁文锋在接受媒体采访时表示,在推翻性的技术面前,闭源构成的护城河是耐久的。即使OpenAI闭源,也无法阻止被他人赶超。“开源更像一个文明行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文明的吸引力。”

梁文锋以为,随着经济展开,中国也要成为奉献者:“我们曾经习气摩尔定律突如其来,躺在家里18个月就会出来更好的配件和软件。Scaling Law(缩放定律)也在被如此看待。但其实,这是西方主导的技术社区一代代孜孜不倦发明出来的,只由于之前我们没有介入这个环节,致使于无视了它的存在。”

他事先还表示,中国AI无法能永远处在跟随的位置,“很多国产芯片展开不起来,也是由于缺乏配套的技术社区,只需第二手信息,所以中国必需要求有人站到技术的前沿。”

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门