为何出自量化基金公司 还需冷静看待 DeepSeek 也交过学费 (量化是什么,为什么要量化)

春节假期,泼天流量降到了DeepSeek的头上。

大约一周多之前,DeepSeek还算不上太有名望,在大模型圈之外,外界对它或许多是一头雾水。但是短短几天,其就一跃成为业界顶流,并闯进了群众视野。

因接连推出的两款大模型产品,DeepSeek在华尔街掀起风暴,美股科技股一度重挫。周二,英伟达单日蒸发近6000亿美元市值,博通和美光科技等芯片产业链股票也纷繁大跌。尽管周三英伟达反弹涨近9%,但DeepSeek带来的心思冲击并没流失。

“DeepSeek大模型在性能上比肩ChatGpt,或许意味着国产大模型成功打破,这对美股科技股构成了冲击。”前海开源基金首席经济学家杨德龙通知时代周报记者。在他看来,科技股是美股牛市的关键推进力,但投资者担忧其估值出现微小泡沫。若一些新技术打破或新模型不要求消耗那么多的GPU,或许会引发像英伟达等公司的大幅下跌,从而形成美股科技股泡沫分裂。

作为一家成立不到两年的大模型公司,无论在融资、技术进度还是言论层面,DeepSeek一向都灵活不大。而它面前的公司幻方量化(一家头部量化私募),在此之前也仅是在私募圈知名。出乎预料的是,一家私募和一家大模型初创公司,这样的少见组合降生了“DeepSeek神话”——无疑令人倍感猎奇。

这一切是怎样做到的?

潜行多年

假定从成立时期上看,DeepSeek并无特地之处。自2022年底ChatGPT公布之后,全球科技圈震动,随之一系列国产大模型创业项目面世。DeepSeek搭乘的也是这股潮流,2023年4月,幻方量化高调宣布进军大模型,三个月之后,DeepSeek作为独立公司成立。

但脱胎于幻方量化的DeepSeek,其实技术积聚要更早。

幻方量化成立于2015年,开创人是梁文锋。在该公司官方上,赫然写着的是:经常经常使用AI投资的对冲基金。依照幻方量化的披露,在公司成立之前七八年时期,开创团队就在探求将技术运转于投资买卖。事先量化投资在国际尚未盛行,团队成员在这方面的阅历相同寥寥,出于朦胧的市场感知和技术理想,梁文锋团队仍选择走上这条路。

在这一时期,幻方量化开创团队从零末尾尝试全智能买卖,采纳机器学习等技术。2010年是一个转机点,当年股指期货和融资融券相继推出,A股投资更生动和多样化。一时期,量化投资在国际私募基金业逐渐介入,报道称梁文锋团队也借此收益颇丰。

2015年,幻方量化正式成立,借助AI和数学启动量化投资。2016年,幻方量化第一个由深度学习算法模型生成的股票仓位上线实盘买卖,经常经常使用GPU启动计算。而在此之前,算法关键依托线性模型和传统机器学习算法,模型计算关键依赖于CPU。

自此之后,幻方的量化战略片面AI化。到2017年底,简直一切量化战略均已采纳AI模型计算。随后不久,该公司明白宣布AI为关键展开方向。

所谓量化投资,指的是借助统计学和数学方法,运行计算机程序对大批数据启动剖析,寻求取得超额收益的投资战略。在持仓品格上,量化投资偏向高度分散和多样化性能,以降低单一资产坚定的风险。在决策上,不同于传统的依托基金经理客观判别,量化公司是基于数据和模型启动买卖。

片面AI化也带来某些疑问,比如复杂的模型计算需求使得单机训练遭遇算力瓶颈,训练需求和有限的计算资源出现矛盾,幻方量化要求处置大规模算力的受限难题。在这个背景下,幻方量化在2019年成立了一家AI基础研讨公司,并推出自研的“萤火一号”AI集群,搭载500块显卡。同一年,幻方量化规模扩张,跻身百亿私募。2021年,幻方又斥资10亿元加码树立“萤火二号”,为AI研讨提供算力支持。

从预先来看,幻方量化在构建AI算力环节中的“囤卡”举措,为它赢得了市场机遇。作为国际早期的英伟达芯片大买家之一,在ChatGPT迸发前夜,幻方量化手中的英伟达显卡数量就越攒越多。据幻方量化称,在2022年时,其用于科研支持的闲时算力高达1533万GPU时,这意味着每天用于科研而非买卖的算力便达4.2万GPU时。这个水平,大大跨越了后来的很多大模型公司。

DeepSeek,就是在这样的加持下问世。

也交过学费

幻方量化演出了一个“一朝成名天下知”的精彩故事,在它的叙事版本里,无论做金融买卖还是进军大模型,都是比拟地道的技术向追求。

一位靠近幻方量化的投资人士通知时代周报记者,他不时很关注这家公司,并且和团队成员有过交流。尽管没有直接接触过开创人自己,但能觉得出来,相关于商业盈利,这个团队的技术理想颜色是更为浓重的。

幻方量化心愿经过AI量化买卖,对金融资产启动定价和投资。金融买卖足够复杂,又是从起家就介入的范围,关于旨在成功通用人工智能(AGI)的幻方量化而言,这是一个十分适宜的切入场景。

早在2020年,点拾投资开创人朱昂曾访谈过幻方量化CEO陆政哲。彼时陆政哲称,幻方量化将自己定义为一家完全依托AI来做投资的对冲基金。其模型数据来源有三个,区分是行情数据、掩盖全市场的基本面数据以及经过结构化处置的另类数据。用这三类数据来训练机器模型,据此构建投资组合,再用精细化的程序化买卖成功买卖。

这套打法确实效果清楚,在2017年-2020年间,整个量化行业高速增长,幻方量化的控制规模也水涨船高。不过,量化买卖并非完美,幻方量化在这上方也吃过甜头。

2021年12月,由于业绩回撤达历史最大值,幻方量化务工绩不及格发文致歉。幻方量化称,其人工重复检视了AI的投资决策,以为AI选出来的股票从终年价值来说基本上没疑问,但在买卖时点上确实做的不够好。尤其市场品格猛烈切换时,AI偏向于冒险博取更多收益,这进一步加大了回撤。

量化资管行业扩张太快,被以为是另一个要素。幻方量化以为,行业规模猛增,形成战略同质化严重,加大了全体操作的难度。因此,事先幻方量化着手控制总的规模,同时表态要加大对战略研讨的投入,以重新取得市场优点。而在监管层面,2024年7月份融券业务相关政策出现严重调整,转融券业务暂停,并且融券保证金比例上调。此外,程序化买卖被进一步强化监管。量化行业似乎告别一段野蛮展开期。

目前,梁文锋旗下有两家百亿私募,除了宁波幻方量化(股票战略),另外一家是浙江九章资产(多资产战略)。务工绩而言,据私募排排网数据,过去两年量化公司的风头依然强势,如2023年百亿私募排行榜中,前十名中量化公司占据六席,在104家上榜私募中,九章资产和幻方量化的业绩分列32和33位。到2024年,量化私募的全体收益仍高于客观私募,除西方港湾(客观投资)牢牢把持行业首位之外,前三十名中量化或客观+量化的机构占据少数。不过,幻方量化的业绩相同算不上突出,仅排在第19位。

在私募排排网有业绩展现的12只产品中,幻方量化旗下产品2024年的收益均值为12.18%,收益中位数为13.02%。

“还需冷静看待”

某种水平上,DeepSeek应该是幻方量化的深度转型之作。成立之初,该公司就表示将专注在大模型上,从言语大模型到视觉大模型,再到多模态大模型,可谓步步为营。

过去一年多,从默默无闻到火爆出圈,DeepSeek阅历了一条明晰的产品迭代之路。

在2024年5月之前,DeepSeek相继推出了DeepSeek Coder(不要钱且开源的首个模型)、DeepSeek LLM(第一个大言语模型),其中DeepSeek LLM包括670亿参数,在一个包括2万亿token(言语模型中用来表示单词或短语的符号)的数据集上启动训练。在中文表现上,该模型据称跨越了事先的GPT-3.5。

这两款模型都没有惹起波涛,直到随后公布的DeepSeek-V2,才让DeepSeek在圈中知名。DeepSeek-V2是混合专家(MoE)言语模型,包括总参数抵达2360亿,每个token激活210亿个参数。在一些行业测试中,DeepSeek-V2有着不错的表现。

无意思的是,事先国际业界对这款模型似乎缺少技术层面的关注。DeepSeek-V2之所以被留意到,是由于它在大模型行业掀起一场多少钱大战——DeepSeek在5月出宣布,DeepSeek-V2降价至每百万Tokens输入多少钱为1元、输入多少钱为2元,开发者还能取得500万Tokens的不要钱额度。

这个多少钱水平,大约相当于GPT-4 Turbo的七十分之一。

随即互联网大厂纷繁跟进,甚至不乏有厂家将多少钱降得比DeepSeek-V2还低。就在国际玩家为多少钱战打的炽热时,有硅谷从业者发现,DeepSeek-V2采纳的多头潜在留意力机制,有效优化了大模型的性能。

这或许是硅谷较早地正视这家中国初创公司。

据一位行业相关人士解释,多头潜在留意力机制是DeepSeek-V2提出的一种留意力架构,该架构可以清楚降低推理环节中的KV缓存。所谓KV缓存,指的是在大模型的推理环节中,用于存储先前计算结果的一种技术。

到2024年底,DeepSeek继续迭代,推出了DeepSeek-V3模型。DeepSeek终于迎来它的GPT-3时辰。

往年1月20日,DeepSeek-R1公布,在数学、代码、天然言语推理等义务上,宣称性能对标OpenAI o1正式版。而它的蒸馏(将大模型的知识迁移到小模型中)小模型,也跨越了OpenAI o1-mini。此外,在开源和闭源路途仍有争议的眼下,DeepSeek宣布R1开源,支持用户启动“模型蒸馏”,以促进技术共享。

DeepSeek-R1是一枚重磅炸弹,在性能上为全球业界注目之外,更关键的是——它的本钱相比竞品大大降低。一周之后,DeepSeek趁热打铁,又推出开源多模态模型,被以为在文生图方面跨越OpenAI的DALL-E3。至此,外界对DeepSeek的讨论关注,抵达高潮。

与先进大模型坚持相近的性能,并在训练本钱、运转本钱和服务定价上片面大幅降低,这是DeepSeek震撼科技圈的要素。在这样的现象级产品出现之前,过去两年多时期,由于AI业界对高性能显卡的追逐,英伟达被一路推上王座。无论在资本市场还是产业链,这个逻辑似乎曾经确立,没料到DeepSeek横空出生,硬生生搅了局。

不过,这场冲击波能继续多久,还是个未知数。DeepSeek的势头固然很猛,但能否弥合了国产大模型与国际先进水平之前的技术代差,正在引发热议。另外,DeepSeek经过算法优化优化效率,能否就意味着对算力需求的清楚削弱,下结论也太早。

喧哗之外,降温观察逐渐成为一种声响。“针对最近几天事情的展开,集团觉得还是冷静看待,必需其取得的成就,但也要防止心境化。”上述投资人士如此说道。

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门