面对AI计算耗电担忧 英伟达宣传Blackwell芯片的高能效 (对ai算法的理解)

admin1 4个月前 (10-09) 阅读数 29 #美股

面临AI计算用电需求担忧的英伟达周二在华盛顿的一次性性会议上宣传了其最新芯片的动力效率。

英伟达在名为“AI Summit DC”的活动中表示,往年末尾向客户推出的Blackwell芯片开发OpenAI的GPT-4软件要求3千兆瓦的电力。这家芯片制造商表示,十年前,这一环节要求高达5500千兆瓦电力。

英伟达副总裁Bob Pette在活动前的一次性性简报会上表示:“我们的Blackwell平台在设计之初就思索到了动力效率。”

英伟达还指出其在软件范围的进度。其中包括制造让企业加快部署定制AI服务的“代理蓝图”。代理是处置理想全球义务的软件,例如处置客户恳求、帮助设计设备或减速药物研发。

英伟达股价一度下跌4.1%,至132.92美元。继2023年下跌239%之后,该股往年迄今下跌逾一倍。


详解Nvidia最新发布的Blackwell GPU 架构

英伟达2024 GTC AI大会于3月18日周一在美国加州圣何塞SAP中心举行,这是英伟达五年后初次线下举行年度GTC大会,被以为是一场英伟达将展现关键效果的AI盛会。 英伟达开创人兼CEO黄仁勋在大会上启动了主题为“面向开发者的1#AI峰会”的演讲,并正式推出了名为Blackwell的新一代AI图形处置器(GPU)。 Blackwell GPU是英伟达推出的下一代减速计算和生成式人工智能(AI)的中心平台,旨在推进新一代计算反派。 据报道,Blackwell GPU具有以下特点:创新技术:Blackwell GPU采用了全新的架构设计,搭载了六项革新性的减速计算技术。 这些技术将推进数据处置、工程模拟、电子设计智能化、计算机辅佐药物设计、量子计算和生成式AI等范围成功打破。 特别值得一提的是,其AI推理性能比前一代产品优化了30倍,能耗却降低了25倍。 性能飞跃:Blackwell GPU的中心是B200芯片,这款芯片拥有2080亿个晶体管,采用台积电定制的4NP工艺制造。 B200芯片将两个die衔接成一个一致的GPU,通讯速度可达10TB/秒。 它经常使用192GB的HBM3E内存,具有极高的内存带宽和数据处置才干。 供应链进度发布时期科技公司评价:许多大型科技企业都在方案采用Blackwell GPU,包括亚马逊云科技、戴尔科技、谷歌、Meta、微软、OpenAI、Oracle、特斯拉等。 这些企业看中了Blackwell GPU在AI、数据处置和计算范围的庞大潜力,等候经过这一新技术推进自身产品和服务的创新。 总的来说,Blackwell GPU仰仗创新技术、大幅优化的性能以及与系统整合,取得了科技公司的普遍关注和认可,被视为推进下一代AI计算反派的中心力气。 老黄在引见Blackwell时,不小心暴露了GPT-4的参数状况:1.8T。

8年增长1000倍,英伟达带来史上最成功的产品

“It’s ok,Hopper。 You’re very good,good boy or good girl”。

北京时期3月19日清晨,GTC最重磅的主题演讲末尾,英伟达开创人黄仁勋身着标志性的皮衣,先是感谢了“改动全球的Hopper”,并宣布重磅推出新一代AI芯片架构Blackwell。

在他看来,减速计算已达转机点,通用计算已走到止境,要求有另一种计算方式,来进一步降低计算本钱、提高计算效率。

我们要求更大的GPU。 黄仁勋说。 过去8年时期里,AI算力需求有了1000倍增长。 在Blackwell架构下,芯片之间可衔接构建出大型AI超算集群,支撑更大的计算需求。 “它是英伟达最成功的产品”。

黄仁勋进一步引见表示,Blackwell拥有2080亿个晶体管,是上一代芯片“Hopper”800亿个晶体管的两倍多,可以支持多达10万亿个参数的AI模型。 “其将成为亚马逊、微软、谷歌、甲骨文等全球最大数据中心运营商部署的新计算机和其他产品的基石”。

第一款采用Blackwell架构的芯片名为GB200。 它被黄仁勋称为“史上最强AI芯片”,将于往年晚些时刻上市。

B200芯片拥有2080亿个晶体管,采用台积电定制的4NP工艺制造。 值得一提的是,这次的芯片将两个die衔接成一个一致的GPU,die之间的通讯速度可以到达10TB/秒。

黄仁勋强调,Blackwell架构的全新型GPU处置器设计架构在处置支持人工智能的大言语模型训练、推理方面速度提高数倍,而本钱和能耗较前代改善庞大。

他举例表示,假设要训练一个1.8万亿参数量的GPT模型,要求8000张Hopper GPU,消耗15兆瓦的电力,延续跑上90天。 但假设经常使用GB200 Blackwell GPU,只要求2000张,相同跑90天只消耗四分之一的电力。 不只是训练,生成Token的本钱也会随之清楚降低。

6大创新技术,Blackwell被以为是“最成功产品”

“1993年,英伟达旅程末尾……”

Blackwell GPU退场之前,黄仁勋先回忆了英伟达30年开展历程,他以为沿途有几个关键里程碑。

首先是2006年,CUDA发布,黄仁勋表示,后来被证明是一种反派性的计算模型。

“我们事先以为它是反派性的,以为它将一夜之间取得成功。”黄仁勋如是表示,

从后续开展来看,CUDA确实配得上“反派”这个词。

作为一项同时支持配件和软件的技术,CUDA可应用图形处置器中的多颗计算中心启动通用计算处置任务,极大放慢了开发模型的训练速度。

可以简易了解为,CUDA是英伟达成功软配件适配的一种架构,而软件生态选择了产品的适用性,计算平台选择了配件的经常使用效率,CUDA是英伟达成功生态的相对护城河。

不过,外界看法到CUDA的价值还是将近10年之后。

2016年,AlexNet与CUDA初次接触,一种名为DGX1的新型计算机降生,初次将170teraflops和8个GPU衔接在一同。 正如外界了解那样,黄仁勋笑言,“我亲身交付了第一台DGX1给一家位于旧金山的初创公司,名为OpenAI”。

2017年,Transformer到来。

2022年,ChatGPT捕捉了全球的想象力,人们看法到人工智能的关键性和才干。

2023年,生成式AI出现,新的行业末尾构成。

“为什么是一个新行业?”黄仁勋表示,由于这样的软件以前从未存在过,我们如今正在经常使用计算机编写软件,这是一个全新的类别,它从无到有占据了市场份额,消费软件方式与此前在数据中心所做的完全不同。

面对全新的市场和需求,要求更弱小的GPU。

“Hopper很棒,但Blackwell更好”。 黄仁勋以为,生成式AI是这个时代的选择性技术,Blackwell是推进这场新工业反派的引擎。

依据黄仁勋引见,Blackwell GPU有6大创新技术,包括:

全球最弱小的芯片。 具有2080亿个晶体管,采用专门定制的双倍光刻极限尺寸4NP TSMC工艺制造,经过10 TB/s的片间互联,将GPU裸片衔接成一块一致的GPU。

第二代Transformer引擎。 得益于全新微张量缩放支持,以及集成于TensorRT-LLM和NeMo Megatron框架中的英伟达灵活范围控制算法,Blackwell将在新型4位浮点AI推理才干下成功算力和模型大小翻倍。

第五代 NVLink。 为了优化万亿级参数模型和混合专家AI模型的性能,最新一代 NVIDIA NVLink为每块GPU提供1.8TB/s双向吞吐量,确保多达576块GPU之间的无缝高速通讯。

RAS引擎。 采用Blackwell架构的GPU包括一个用于保证牢靠性、可用性和可保养性的公用引擎。 此外,Blackwell架构还参与了多项芯片级性能,能够应用AI预防性保养来运转诊断并预测牢靠性相关的疑问。 这将最大水平延伸系统正常运转时期,提矮小规模AI部署的弹性,使其能够延续不连续运转数周乃至数月,同时降低运营本钱。

安保AI。 秘密计算性能可以在不影响性能的状况下维护AI模型和客户数据,并且支持全新本地接口加密协议。

解紧缩引擎。 公用的解紧缩引擎支持最新格式,经过减速数据库查询提供极端弱小的数据剖析和数据迷信性能。

在黄仁勋看来,未来几年,每年要求企业破费数百亿美元的数据处置将越来越多地由GPU减速。

屡次迭代,英伟达不时拉大与对手差距

之所以取名Blackwell是为了致敬美国迷信院首位黑人院士、出色统计学家兼数学家David Blackwell,其擅长将复杂的疑问简易化,独立发明的“灵活规划”、“更新定理”被普遍运用于多个迷信、工程学等多个范围。

而这,也是每一代英伟达GPU架构的命名习气。

GPU的概念,是由英伟达在1999年发布Geforce256图形处置芯片时首先提出的,从此英伟达显卡的芯就用GPU来称谓,它是专门设计用于处置图形渲染的处置器,关键担任将图像数据转换为可以在屏幕上显示的图像。

与CPU不同,GPU具有数千个较小的内核(内核数量取决于型号和运行),因此GPU架构针对并行处置启动了优化,可以同时处置多个义务,并且在处置图形和数学任务负载时速度更快。

随后20多年时期,英伟达每隔1-2年提出新的芯片架构以顺应计算需求更新,陆续推出Tesla、Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere和Hopper等。 不时增强GPU的计算才干和程序性,推进GPU在图形渲染、人工智能和高性能计算等范围的运行。

比如,2020年Ampere架构在计算才干、能效和深度学习性能方面大幅优化,采用多个SM和更大的总线宽度,提供更多CUDA Core及更高频率,引入第三代Tensor Core,具有更高的内存容量和带宽,适用于大规模数据处置和机器学习义务。

再比如,2022年发布Hopper架构,支持第四代TensorCore,采用新型流式处置器,每个SM才干更强。

可以了解为,GPU架构的更新关键体如今SM、TPC(CUDA中心的分组结构)参与,最终体如今GPU浮点计算才干的优化。

从Pascal架构到Blackwell架构,过去8年,英伟达将AI计算性能优化了1000倍。 “在Blackwell架构下,芯片之间可衔接构建出大型AI超算集群,支撑更大的计算需求。 ”黄仁勋表示,GPU的外形已彻底改动,未来英伟达DGX AI超级计算机,就是AI工业反派的工厂。

从数据和性能看,英伟达的GPU产品在AI训练上的性能和水平,确实与全球其他玩家的差距在进一步拉大。

这也使得英伟达芯片在大模型训练范围占比不时优化,但受限于芯片管制、产能等要素,在推理市场,英伟达丧失了一些份额。

生成式AI微服务推出,打造AI运行级入口

两周前,英伟达在CUDA11.6更新版本中强调:“制止其他配件平台上运转基于 CUDA的软件”。

显然,它想要训练和推理芯市场一同抓。

为了上述目的的成功,光有配件还不够,软件护城河也要跟上。

因此,在讲完配件生态之后,黄仁勋末尾引见在AI软件方面的创新,即生成式AI微服务NIMS(Nvidia Inference Micro Service)。

在黄仁勋看来,生成式AI改动了运行程序编程方式。 未来,企业不再编写软件,而是组装AI模型,指定义务,给出任务产品示例,审查方案和两边结果。

而NIM的出现能够让这件事的成功愈加简易。 黄仁勋希望,用NIM平台,支持运行厂商开发智能运行,将NIM打造为CUDA生态之后的一个AI运行级入口,参与生态护城河价值。

据引见,英伟达NIM是英伟达推理微服务的参考,是由英伟达的减速计算库和生成式AI模型构建的。 微服务支持行业规范的API,在英伟达大型CUDA装置基础上任务,并针对新的GPU启动优化。

“企业可以应用这些微服务在自己的平台上创立和部署定制运行,同时保管对知识产权的完整一切权和控制权”。 据黄仁勋引见,NIM微服务提供基于英伟达推理软件的预构建容器,使开发者能够将部署时期从几周缩短至几分钟。

它们为言语、语音和药物发现等范围提供行业规范API,使开发者能够经常使用安保托管在自己的基础设备中的专有数据,来加快构建AI运行。 这些运行可按需扩展,从而为在英伟达减速计算平台上运转消费级生成式AI提供灵敏性和性能。

英伟达最先进的ai芯片

英伟达最先进的AI芯片是Blackwell GPU。 Blackwell GPU是英伟达在AI芯片技术范围的最新打破,于2023年3月18日由英伟达CEO黄仁勋在GTC大会上正式发布。 这款芯片被视为英伟达迄今为止最弱小的AI处置器,其设计理念和技术特性均表现了英伟达在人工智能范围的深沉积聚与前瞻视野。 从技术细节来看,Blackwell GPU采用了台积电的4纳米工艺,集成了高达2080亿个晶体管,这一数字远超其前身H100的800亿个晶体管。 其清楚特点之一是提供了高达20 petaflops的FP4八精度浮点运算才干,相比H100的4 petaflops有了清楚优化。 这意味着Blackwell GPU在处置复杂的AI算法和模型时,能够提供史无前例的计算速度和效率。 此外,Blackwell GPU的推出还随同着一系列软配件生态系统的更新。 英伟达不只提供了弱小的配件基础,还经过其CUDA平台、NVLink技术以及新推出的NIM微服务,为开发者构建了一个片面、高效的AI计算环境。 这些技术的结合使得Blackwell GPU在大规模数据处置、深度学习训练与推理等方面表现出出色的性能,进一步安全了英伟达在AI芯片市场的抢先位置。 总的来说,Blackwell GPU的发布是英伟达在AI技术范围的又一关键里程碑。 它不只代表了以后最先进的AI芯片技术,更预示着未来人工智能开展的有限或许。 经过继续的技术创新和生态系统构建,英伟达正引领着AI芯片技术的开展潮流,为全球范围内的科研任务者和企业用户提供了弱小的计算支持。

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门