英特尔旗舰CPU加码AI推理 推理算力需求或达训练10倍 行业观察 带动多厂主机新品排队面市 (英特尔旗舰店)
媒体9月28日讯(记者 付静)“或许在短期或中短期内,市场焦点聚集中在一些大型通用模型上,但是关于AI来说,更广阔的运转空间通常上是在推理场景中。”近日召开的英特尔®至强®6性能核处置器公布会后,英特尔市场营销集团副总裁、中国区云与行业处置方案和数据中心销售部总经理梁雅莉在接受媒体记者采访时表示。
据媒体记者多方采访梳理得知,以后国际大模型厂商算力本钱至少七成仍用于训练端,而未来推理将成“大模型下半场”。海外外众多厂商均已盯上推理算力的蛋糕,芯片巨头英特尔主机CPU至强(Xeon)系列重量级新品亦瞄准推理市场需求,直接带动多家主机厂商新品于往年9月起至明年一季度密集面市,国际数据中心预期步入新展开阶段。
推理算力需求或达训练10倍 供应端紧盯蛋糕
“通常上,在AI技术的通常运转落地环节中,用户感受最直观、最猛烈的往往是推理环节的性能表现。尽管过去我们不时在强调大模型训练的关键性,但真正到了企业运转层面,推理的需求规模往往是训练需求的5-10倍。”站在推理算力需求视角,(000938.SZ)旗下新华三集团计算存储产品线副总裁刘宏程向媒体记者表示。
他进一步通知媒体记者,通用模型运转于详细行业时,往往要求结合企业数据启动私有化微调与推理。“通用大模型的投入本钱过高,很多企业难以承当,而且投入与产出的时期比也较长。因此,企业更偏向于在通用模型的基础上启动微调,以满足自身特定需求,并经过推理来成功运转落地。”
媒体记者采访了解到,众多从业者以为算力需求将继续增长,对行业展开前景持绝望态度。
“我们以为能够在‘百模大战’竞争中生活上去的通用大模型数量将十分有限,或许不会逾越一只手能数得过去的数量。某些介入者或许会面临微小应战,甚至被市场淘汰。但从整个市场的角度来看,训练规模的需求依然十分庞大。此外,当一切的通用模型和私域模型都抵达可用并预备变现的阶段时,我们预测将会有一个规模抵达训练市场5到10倍的推理市场等候着我们。算力投入估量将在未来5-10年内坚持高速增长。”刘宏程称。
站在供应视角,据媒体记者观察,国际显赫一时的华为、近期因启动IPO颇受关注的GPU独角兽燧原科技、壁仞科技、海外的AMD、Cerebras Systems、FuriosaAI等众多芯片厂商纷繁加码AI推理竞赛。与此同时,Meta、微软、OpenAI等厂商亦走漏亲身下场做推理芯片的方案,其中Meta上半年已正式公布MTIA v2芯片。
媒体记者问及英特尔如何看待推理算力供应侧的蓬勃趋向,梁雅莉称,前述厂商亲身开发推理芯片,“一方面是由于需求旺盛,另一方面也是为了寻觅价值和性能之间的平衡。”
她以为,推理算力需求下,配件架构和性能固然关键,更关键的是软件的优化和全体系统的设计。软件层面,比如深度学习框架要求不时优化;全体系统设计层面,无论CPU、GPU甚至FPGA,最关键的是如何与产业的每一个详细场景深度融合。
CPU可用于10B模型推理 推进主机改造
英特尔最新至强6性能核处置器(代号Granite Rapids)的公布,使得AI推理算力赛道迎来更微弱的CPU选手。
据悉,至强6性能核采纳区分式模块化设计,包括Intel 3工艺的计算模块、Intel 7工艺的I/O模块;最高装备128个X86内核,支持高达每秒6400MT的DDR5内存、每秒8800MT的MRDIMM内存、6条UPI 2.0链路(速率达每秒24 GT),96条PCIe 5.0或64条CXL 2.0通道、504MB的L3缓存。
英特尔至强6能效核处置器(代号Sierra Forest)曾于往年6月推出,针对高中心密度和规模扩充义务所需的高效力优化,而性能核处置器则面向计算密集型和AI任务负载所需的高性能启动优化。
地下资料显示,至强是英特尔为与一般集团电脑市场作区分研制推出的主机CPU品牌,该产品线面向中高端企业级主机、任务站市场。英特尔数据中心与人工自动集团副总裁兼中国区总经理陈葆立走漏,现有AI主机中大部分机头CPU仍是英特尔CPU。基于英特尔“四年五个制程节点”战略,2024年至强6系列采纳了Intel 3制程工艺。
据悉,自第四代至强起,英特尔针对AI减速推出专属指令集“英特尔®初级矩阵扩充(下称AMX)”,使得CPU能够支持市面经常出现大模型的推理计算,第四代、第五代至强可以用于处置6B、7B甚至13B的模型,正被业内大批经常经常使用中。而在第六代至强中,AMX亦做出更新。
媒体记者于公布会现场得知,从通常推理表现看,针对70亿参数的Llama2大模型推理,至强6性能核相比第五代至强单颗CPU性能和每瓦特性能区分有3.08倍、2.16倍优化;针对80亿参数的Llama3,则区分有2.40倍、1.68倍优化。
(受访者供图)
“2年前,一个支流主机搭配的至强处置器应该是24-48核。相比上一代,至强6性能核性能装备从64核到128核,单核性能优化1.2倍。”陈葆立在公布会上称。
据媒体记者观察,除了CPU内核数及全体性能优化,在GPU用于AI推理被视作支流的当下,这款CPU加码推理的意义更在于带动国际数据中心步入新展开阶段。
刘宏程以为,融合架构相比单一GPU主机更契合企业私有化微调、推理的需求。“由于关于私域小规模的训练和推理义务来说,融合架构的投资报答率更高,能更有效地应用资源。”
梁雅莉亦通知媒体记者,“未来的市场环境下,性能和本钱肯定做平衡思索。尤其是关于推理场景,只追求性能是欠妥的,企业最终要平衡的是在这样一个场景下消耗的算力本钱是多少,以及它如何转化为企业的商业价值,最终大家都要求启动本钱效益剖析。”
媒体记者留意到,由于生成式AI算力需求继续增长,在本月受业内关注的两大互联网巨头的“主场”2024腾讯全球数字生态大会、2024云栖大会上,围绕英特尔至强6性能核的讨论声就已逐渐增多。
而OEM厂商方面,超聚变主机产品总经理朱勇对媒体在内的媒体表示,基于通用场景的CPU推理可成功“一芯多用”:“如今CPU曾经展开到可以去做一些10Billion左右的大模型推理场景,这为客户带来的优点是能够下降TCO。”
“过去我们经常区分通用主机和GPU主机,但在这一代至强6主机上,我们成功了一个融合基础设备,即能够同时统筹通用计算和GPU减速的需求。这种融合将减速各行业对新技术运转的推进,由于用户不再要求在不同类型的主机之间做出选择,而是可以愈加灵敏地应对多样化的计算需求。”刘宏程称。
此外媒体记者得知,(000977.SZ)、超聚变、新华三、(000063.SZ)、联想等厂商基于英特尔至强6性能核处置器的主机新品将陆续面市。
英特尔发布新一代AI芯片,吞吐量较A100翻倍
英特尔发布新一代AI芯片,吞吐量较A100翻倍
英特尔发布新一代AI芯片,吞吐量较A100翻倍,芯片制造商英特尔发布一款专注于人工智能计算的全新芯片Gaudi2,希望借此应战英伟达在人工智能芯片市场的主导位置。 英特尔发布新一代AI芯片,吞吐量较A100翻倍。
英特尔发布新一代AI芯片,吞吐量较A100翻倍1
针对AI减速,英特尔发布公用于高性能深度学习AI训练的英特尔Habana Gaudi2 AI处置器,以落第二代云端AI推理芯片Greco。
第二代Gaudi训练芯片和Greco推理芯片均采用7nm工艺,较上一代16nm有所优化。 Gaudi2可拥有高达96GB HBM2e内存,以及24个集成的100GbE RoCE端口。
据引见,在训练主流计算机视觉和自然言语处置模型时,Gaudi2的吞吐量可到达英伟达A100的两倍。
Habana客户现可经常使用Gaudi2处置器,其第二代Greco推理芯片将从往年下半年末尾提供应客户。
英特尔还宣布其代号为Arctic Sound-M(ATS-M)的英特尔数据中心GPU将于2022年第三季度发布。
作为面向多媒体转码、视觉图形处置和云端推理的单一GPU处置方案,ATS-M是英特尔在该范围首款装备AV1配件编码器的独立GPU。
它是一颗支持高质量转码和高性能的弱小GPU,能够提供每秒150万亿次运算(150TOPS)。
开发人员可以应用oneAPI支持的开放软件堆栈,轻松地展开面向ATS-M的设计任务。
ATS-M将拥有两种不同的产品外形设计,并将取得超越15款来自戴尔、Supermicro、浪潮和新华三等协作同伴的系统设计。
随后,英特尔初次启动了其软件基础设备方案Endgame项目的概念演示。
运行程序可以充沛应用这个软件基础设备层,使设备能应用网络中其他设备的计算资源,从而提供一直可用、低时延、延续的计算服务。
例如,在一台设备上运转要求苛刻的GPU任务负载时,可以感知并应用来自更高性能计算设备上的额外图形处置算力,以增强用户体验。
Endgame项目正在开发中,英特尔在往年末尾该技术的beta测试。
英特尔发布新一代AI芯片,吞吐量较A100翻倍2
5月11日信息,外地时期周二芯片制造商英特尔发布一款专注于人工智能计算的全新芯片Gaudi2,希望借此应战英伟达在人工智能芯片市场的主导位置。
Gaudi2是由英特尔旗下Habana实验室开发的第二代人工智能处置器。 Habana实验室曾是一家以色列人工智能芯片初创公司,被英特尔于2019年底斥资20亿美元收买。 近年来,数据中心常用的人工智能计算业务飞速增长,相关创企纷繁取得巨额投资。
眼下很多人工智能研讨员和企业曾经习气经常使用英伟达的软件平台CUDA,英特尔想要从英伟达手中争夺市场份额并非易事。 除了推出用于人工智能计算的新芯片之外,英特尔还表示不时在启动软件开发。
“CUDA并不是英伟达能够常年屹立不倒的护城河,”Habana实验室首席商务官艾塔·麦地纳(Eitan Medina)表示。 他补充称,英特尔开发的软件平台采用开放规范,可以从软件开发网站GitHub不要钱下载和经常使用。 “如今的疑问是,谁能更高效地成功这项任务?”
麦地纳表示,Gaudi2的处置速度是Habana实验室之前所开发人工智能芯片的两倍,由台积电的7纳米制程代工制造。 相比之下,Habana实验室之前推出的人工智能芯片采用的16纳米制程工艺。
英特尔还推出一款用于人工智能推理任务的芯片Greco,能够应用人工智能算法预测或识别物体。
英特尔数据中心和人工智能担任人桑德拉·里维拉(Sandra Rivera)表示,未来五年,人工智能芯片市场估量将以每年25%的速度增长,规模会到达500亿美元左右。 她说:“我们计划经过投资和创新来引领市场开展。 ”她补充说,会向软件范围启动更多投资,其中既有扩展英特尔的团队,也有收买其他公司。
英特尔发布新一代AI芯片,吞吐量较A100翻倍3
GPU、AI 芯片、通用化云算力软件,英特尔在创新峰会上通知我们,它依然是那家站在最前沿的科技公司。
本周二,英特尔推出了一款名为 Gaudi2 的 AI 芯片,这家公司正在鼎力进军英伟达主导的人工智能芯片市场。
Gaudi2 是以色列人工智能芯片初创公司 Habana Labs 的第二代处置器,英特尔于 2019 年以约 20 亿美元的多少钱收买了该公司。 近年来,AI 研讨人员和公司曾经习气经常使用英伟达软件平台 CUDA,因此从后者手中争夺市场份额不时是一个应战。 除了用于人工智能计算的新芯片外,英特尔不时专注于软件研发。
相关于前代 AI 处置器 Greco 和 Goya,Gaudi2 的速度有了清楚优化,其采用台积电 7 纳米制程,Tensor 处置器内核数量参与到 24 个,封装内存容量从 32GB(HBM2)参与至 96GB(HBM2E),板载 SRAM 参与了一倍(从 24MB 到 48MB)。
「这是第一个也是唯逐一个集成了如此大内存的 AI 减速器,」Habana Labs 的首席运营官 Eitan Medina 表示。 该处置器的 TDP 为 600W,但依然经常使用主动冷却,不要求液冷。
英特尔展现了 Gaudi2 与竞争对手在抢手义务上的一些性能比拟。 在 ResNet-50 模型训练中,Gaudi2 的吞吐量是一代产品的 3.2 倍,英伟达 80GB A100 的 1.9 倍,V100 的 4.1 倍。 在其他一些基准测试中,Gaudi 和 80GB A100 之间的差距愈加清楚:关于 BERT Phase-2 训练吞吐量,Gaudi-2 比 80GB A100 高出 2.8 倍。
不过,英特尔并没有和英伟达最新的 H100 启动对比。
英特尔表示,基于与第一代 Gaudi 相反的体系架构,Habana Gaudi2 处置器大幅提高了训练性能。 用户在云端运转 Amazon EC2 DL1 实例以及本地运转 Supermicro Gaudi 训练主机时,其性价比比现有 GPU 处置方案优化了 40%。
与此同时,英特尔还推出了一款名为 Greco 的推理芯片。 Gaudi2 处置器目前曾经销售,而 Greco 估量将在往年下半年末尾为选定的客户提供样品。
昨天英特尔推出的 12 代酷睿 CPU HX55 系列不同于此前产品,可以成功接近桌面版的才干,其拥有最多 8 特性能 P 核、8 个能效 E 核,最多 16 个中心、24 个线程,还有 30MB 三级缓存,核显最多包括 32 个执行单元。
除此之外,H55 系列内存支持双通道 DDR5-4800 或许 DDR4-3200,最多装置四条 128G 内存,以及四块合计 16TB 的 SSD 固态硬盘,它也支持 PCIe 5.0。
HX55 系列一共有七款产品,掩盖从 i5 到 i9,基础功耗均为 33W,最高睿频功耗到达 157W。
旗舰型号是 i9-HX,8P+8E 16 中心 24 线程,三级缓存 30MB,P 核频率为 3.6-5.0GHz,E 核频率到达 1.7-3.6GHz,集成核显 32 单元,频率为 1.55GHz。
性能方面,以最高端的 i9-HX 为例,对比上代顶级 CPU i9-HK,新芯片单核性能优化 17%,多核性能优化 64%,3D 渲染性能参与了 81%,AutoDesk 专业创作性能优化了 12-28%。
随着新 CPU 的发布,一系列电脑厂商的游戏笔记本、移动任务站新品行将陆续上市。
除了新的配件产品之外,英特尔昨天还初次启动了软件基础设备方案「Project Endgame」的概念演示。 运行程序可以应用该软件基础设备层,使设备能应用网络中其他设备的计算资源,从而提供一直可用、低时延、延续的计算服务。
英特尔首席架构师 Raja Koduri 现场展现了 Endgame,在一台笔记本上运转虚幻引擎 5 Demo 时卡顿十分清楚,在开启继续计算基础设备后,软件可以感知并应用来自左近更高性能计算设备上的额外图形处置算力(一台外星人主机),帧率瞬间更新到了台式机水平。
这一才干也将在未来的元宇宙运行中发扬关键作用。 英特尔表示,Endgame 项目正在开发中,估量往年末尾 beta 测试。
版权声明
本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。