AI 芯片制造工厂 富士康方案在墨西哥建造全球最大的英伟达 GB200 (ai芯片制造龙头公司)

据媒体今天报道,富士康初级副总裁 Benjamin Ting 在 2024 鸿海科技日上宣布,富士康方案在墨西哥建造全球最大的英伟达GB200 芯片制造工厂,不过他没有走漏该设备详细将建在哪里。

富士康以后作为苹果的关键供应商,正在扩展业务制造其他电子产品。随着 AI 初创公司训练大模型的需求飙升,训练这些模型要求大批的计算才干,富士康也因此想争夺新的市场,搭上英伟达的巨轮天然是首选。

据媒体往年 3 月报道,英伟达在 GTC 2024 开发者大会上发布了旗下最强 AI 减速卡 GB200,该卡采纳新一代 AI 图形处置器架构 Blackwell,采纳台积电的 4 纳米(4NP)工艺蚀刻而成。

鸿海(富士康母公司)董事长刘扬伟在活动中表示,该公司的供应链已为人工自动反派做好了预备。他谈到了富士康的先进制造才干,其中包括液体冷却和散热系统等关键技术,这些技术用于制造英伟达 GB200 产品的必要基础设备。新工厂正在墨西哥树立,那里的产能将“十分十分微小”。


英伟达最先进的ai芯片

英伟达最先进的AI芯片是GB200,这款芯片在2024年的GTC开发者大会上发布,被誉为历史上最为弱小的AI芯片。 GB200集成了两个GPU和一个CPU,展现了清楚的性能性优势。 它的出现不只代表了英伟达在AI芯片范围的最新效果,也预示着AI计算才干的又一次性飞跃。 除了GB200外,英伟达在AI芯片范围还有多款高性能产品,如Blackwell和H200等。 其中,Blackwell结合了第二代Transformer引擎和先进技术,支持高效的AI计算才干;而H200则基于H100启动了更新,内存带宽和容量均有清楚优化,进一步增强了处置生成式AI义务的才干。 这些先进的AI芯片不只为专业设计师和游戏玩家带来了全新的体验,还普遍运行于数据中心、高性能计算和智能驾驶等范围,推进了相关技术的加快开展。 英伟达仰仗其弱小的技术实力和不时创新的精气,在AI芯片范围坚持了抢先位置。

英伟达新核弹B200发布,一台主机顶一个超算,万亿参数大模型30倍推理减速

AI春晚GTC开幕,英伟达发布新一代Blackwell架构,定位直指“新工业反派的引擎”。 英伟达新核弹B200发布,一台主机顶一个超算,万亿参数大模型推理减速30倍。 黑威尔架构配件产品线围绕“更大的GPU,或许更多GPU组合在一同”展开。 经过芯片与芯片间的衔接技术,构建大型AI超算集群。 B200 GPU采用4nm制程,包括2080亿晶体管,两个B200 GPU与Grace CPU结分解为GB200超级芯片。 GB200 NVL72机柜FP8精度训练算力高达720PFlops,与100个H100相比,大模型推理性能优化高达30倍,本钱和能耗降低高达25倍。 GB200 NVL72具有1.4EFlops AI推理算力和30TB高速内存,配合Quantum InfiniBand交流机和散热系统,构成新一代DGX SuperPod集群。 DGX GB200 SuperPod采用高效液冷机架规模架构,提供11.5 Exaflops算力和240TB高速内存。 GB200 NVL72支持散布式超算集群,最大包括 GPU。 英伟达DGX AI超级计算机,提供无与伦比的规模、牢靠性,具有智能控制和全栈弹性。 英伟达宣布页面,作为全球AI的入口,提供各种AI模型和运行。 NVIDIA推出AI推理微服务NIM,支持数十个AI模型优化推理。 NIM定价为“一个GPU一小时一美元”,或年付打五折,一个GPU一年4500美元。 英伟达NIM和CUDA作为两边枢纽,衔接百万开发者与上亿GPU芯片。 英伟达与亚马逊、迪士尼、三星等大型企业协作,成为协作同伴。 英伟达产品更聚焦AI,推出优化通讯瓶颈的第五代NVLink,强调推理算力,翻开AI运行部署市场。 除了AI,英伟达还宣布与苹果在Vision Pro方面的协作,规划工业元宇宙。 推出云量子计算机模拟微服务,让全球迷信家充沛应用量子计算力气。 英伟达推出Transformer八子,意味大模型技术来源和AI产业百花齐放。 英伟达在AI界的影响力、召唤力无人能及。

8年增长1000倍,英伟达带来史上最成功的产品

“It’s ok,Hopper。 You’re very good,good boy or good girl”。

北京时期3月19日清晨,GTC最重磅的主题演讲末尾,英伟达开创人黄仁勋身着标志性的皮衣,先是感谢了“改动全球的Hopper”,并宣布重磅推出新一代AI芯片架构Blackwell。

在他看来,减速计算已达转机点,通用计算已走到止境,要求有另一种计算方式,来进一步降低计算本钱、提高计算效率。

我们要求更大的GPU。 黄仁勋说。 过去8年时期里,AI算力需求有了1000倍增长。 在Blackwell架构下,芯片之间可衔接构建出大型AI超算集群,支撑更大的计算需求。 “它是英伟达最成功的产品”。

黄仁勋进一步引见表示,Blackwell拥有2080亿个晶体管,是上一代芯片“Hopper”800亿个晶体管的两倍多,可以支持多达10万亿个参数的AI模型。 “其将成为亚马逊、微软、谷歌、甲骨文等全球最大数据中心运营商部署的新计算机和其他产品的基石”。

第一款采用Blackwell架构的芯片名为GB200。 它被黄仁勋称为“史上最强AI芯片”,将于往年晚些时刻上市。

B200芯片拥有2080亿个晶体管,采用台积电定制的4NP工艺制造。 值得一提的是,这次的芯片将两个die衔接成一个一致的GPU,die之间的通讯速度可以到达10TB/秒。

黄仁勋强调,Blackwell架构的全新型GPU处置器设计架构在处置支持人工智能的大言语模型训练、推理方面速度提高数倍,而本钱和能耗较前代改善庞大。

他举例表示,假设要训练一个1.8万亿参数量的GPT模型,要求8000张Hopper GPU,消耗15兆瓦的电力,延续跑上90天。 但假设经常使用GB200 Blackwell GPU,只要求2000张,相同跑90天只消耗四分之一的电力。 不只是训练,生成Token的本钱也会随之清楚降低。

6大创新技术,Blackwell被以为是“最成功产品”

“1993年,英伟达旅程末尾……”

Blackwell GPU退场之前,黄仁勋先回忆了英伟达30年开展历程,他以为沿途有几个关键里程碑。

首先是2006年,CUDA发布,黄仁勋表示,后来被证明是一种反派性的计算模型。

“我们事先以为它是反派性的,以为它将一夜之间取得成功。”黄仁勋如是表示,

从后续开展来看,CUDA确实配得上“反派”这个词。

作为一项同时支持配件和软件的技术,CUDA可应用图形处置器中的多颗计算中心启动通用计算处置任务,极大放慢了开发模型的训练速度。

可以简易了解为,CUDA是英伟达成功软配件适配的一种架构,而软件生态选择了产品的适用性,计算平台选择了配件的经常使用效率,CUDA是英伟达成功生态的相对护城河。

不过,外界看法到CUDA的价值还是将近10年之后。

2016年,AlexNet与CUDA初次接触,一种名为DGX1的新型计算机降生,初次将170teraflops和8个GPU衔接在一同。 正如外界了解那样,黄仁勋笑言,“我亲身交付了第一台DGX1给一家位于旧金山的初创公司,名为OpenAI”。

2017年,Transformer到来。

2022年,ChatGPT捕捉了全球的想象力,人们看法到人工智能的关键性和才干。

2023年,生成式AI出现,新的行业末尾构成。

“为什么是一个新行业?”黄仁勋表示,由于这样的软件以前从未存在过,我们如今正在经常使用计算机编写软件,这是一个全新的类别,它从无到有占据了市场份额,消费软件方式与此前在数据中心所做的完全不同。

面对全新的市场和需求,要求更弱小的GPU。

“Hopper很棒,但Blackwell更好”。 黄仁勋以为,生成式AI是这个时代的选择性技术,Blackwell是推进这场新工业反派的引擎。

依据黄仁勋引见,Blackwell GPU有6大创新技术,包括:

全球最弱小的芯片。 具有2080亿个晶体管,采用专门定制的双倍光刻极限尺寸4NP TSMC工艺制造,经过10 TB/s的片间互联,将GPU裸片衔接成一块一致的GPU。

第二代Transformer引擎。 得益于全新微张量缩放支持,以及集成于TensorRT-LLM和NeMo Megatron框架中的英伟达灵活范围控制算法,Blackwell将在新型4位浮点AI推理才干下成功算力和模型大小翻倍。

第五代 NVLink。 为了优化万亿级参数模型和混合专家AI模型的性能,最新一代 NVIDIA NVLink为每块GPU提供1.8TB/s双向吞吐量,确保多达576块GPU之间的无缝高速通讯。

RAS引擎。 采用Blackwell架构的GPU包括一个用于保证牢靠性、可用性和可保养性的公用引擎。 此外,Blackwell架构还参与了多项芯片级性能,能够应用AI预防性保养来运转诊断并预测牢靠性相关的疑问。 这将最大水平延伸系统正常运转时期,提矮小规模AI部署的弹性,使其能够延续不连续运转数周乃至数月,同时降低运营本钱。

安保AI。 秘密计算性能可以在不影响性能的状况下维护AI模型和客户数据,并且支持全新本地接口加密协议。

解紧缩引擎。 公用的解紧缩引擎支持最新格式,经过减速数据库查询提供极端弱小的数据剖析和数据迷信性能。

在黄仁勋看来,未来几年,每年要求企业破费数百亿美元的数据处置将越来越多地由GPU减速。

屡次迭代,英伟达不时拉大与对手差距

之所以取名Blackwell是为了致敬美国迷信院首位黑人院士、出色统计学家兼数学家David Blackwell,其擅长将复杂的疑问简易化,独立发明的“灵活规划”、“更新定理”被普遍运用于多个迷信、工程学等多个范围。

而这,也是每一代英伟达GPU架构的命名习气。

GPU的概念,是由英伟达在1999年发布Geforce256图形处置芯片时首先提出的,从此英伟达显卡的芯就用GPU来称谓,它是专门设计用于处置图形渲染的处置器,关键担任将图像数据转换为可以在屏幕上显示的图像。

与CPU不同,GPU具有数千个较小的内核(内核数量取决于型号和运行),因此GPU架构针对并行处置启动了优化,可以同时处置多个义务,并且在处置图形和数学任务负载时速度更快。

随后20多年时期,英伟达每隔1-2年提出新的芯片架构以顺应计算需求更新,陆续推出Tesla、Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere和Hopper等。 不时增强GPU的计算才干和程序性,推进GPU在图形渲染、人工智能和高性能计算等范围的运行。

比如,2020年Ampere架构在计算才干、能效和深度学习性能方面大幅优化,采用多个SM和更大的总线宽度,提供更多CUDA Core及更高频率,引入第三代Tensor Core,具有更高的内存容量和带宽,适用于大规模数据处置和机器学习义务。

再比如,2022年发布Hopper架构,支持第四代TensorCore,采用新型流式处置器,每个SM才干更强。

可以了解为,GPU架构的更新关键体如今SM、TPC(CUDA中心的分组结构)参与,最终体如今GPU浮点计算才干的优化。

从Pascal架构到Blackwell架构,过去8年,英伟达将AI计算性能优化了1000倍。 “在Blackwell架构下,芯片之间可衔接构建出大型AI超算集群,支撑更大的计算需求。 ”黄仁勋表示,GPU的外形已彻底改动,未来英伟达DGX AI超级计算机,就是AI工业反派的工厂。

从数据和性能看,英伟达的GPU产品在AI训练上的性能和水平,确实与全球其他玩家的差距在进一步拉大。

这也使得英伟达芯片在大模型训练范围占比不时优化,但受限于芯片管制、产能等要素,在推理市场,英伟达丧失了一些份额。

生成式AI微服务推出,打造AI运行级入口

两周前,英伟达在CUDA11.6更新版本中强调:“制止其他配件平台上运转基于 CUDA的软件”。

显然,它想要训练和推理芯市场一同抓。

为了上述目的的成功,光有配件还不够,软件护城河也要跟上。

因此,在讲完配件生态之后,黄仁勋末尾引见在AI软件方面的创新,即生成式AI微服务NIMS(Nvidia Inference Micro Service)。

在黄仁勋看来,生成式AI改动了运行程序编程方式。 未来,企业不再编写软件,而是组装AI模型,指定义务,给出任务产品示例,审查方案和两边结果。

而NIM的出现能够让这件事的成功愈加简易。 黄仁勋希望,用NIM平台,支持运行厂商开发智能运行,将NIM打造为CUDA生态之后的一个AI运行级入口,参与生态护城河价值。

据引见,英伟达NIM是英伟达推理微服务的参考,是由英伟达的减速计算库和生成式AI模型构建的。 微服务支持行业规范的API,在英伟达大型CUDA装置基础上任务,并针对新的GPU启动优化。

“企业可以应用这些微服务在自己的平台上创立和部署定制运行,同时保管对知识产权的完整一切权和控制权”。 据黄仁勋引见,NIM微服务提供基于英伟达推理软件的预构建容器,使开发者能够将部署时期从几周缩短至几分钟。

它们为言语、语音和药物发现等范围提供行业规范API,使开发者能够经常使用安保托管在自己的基础设备中的专有数据,来加快构建AI运行。 这些运行可按需扩展,从而为在英伟达减速计算平台上运转消费级生成式AI提供灵敏性和性能。

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门