百度智能云重磅宣布将点亮昆仑芯三代三万卡集群 (百度智能云重庆)

admin1 1个月前 (02-06) 阅读数 16 #财经

近日，百度智能云成功点亮昆仑芯三代万卡集群，这也是国际首个正式点亮的自研万卡集群。据悉，百度智能云将进一步点亮3万卡集群。这一打破标志着百度在人工智能算力范围迈出了坚实的一步，不只为百度自身的技术展开提供了弱小动力，也为整个中国科技界、互联网行业和AI行业带来了新的展开时机。

万卡集群的建成不只为百度带来了弱小的算力支持，还推进了模型降本的趋向。在过去一年中，整个行业都在努力降低大模型的经常经常使用本钱，而算力缓和是形成本钱居高不下的关键原因之一。百度经过自研芯片和大规模集群的树立，不只处置了自身算力供应的疑问，还为整个行业提供了新的思绪和方向。

从算力上看，超大规模并行计算才干可成功训练效率跃升，万卡集群可将千亿参数模型的训练周期大幅降低，满足AI原生运转加快迭代的需求。同时也能支持更大模型与复杂义务和多模态数据，支撑Sora类运转的开发。此外，万卡集群能够支持多义务并发才干，经过灵敏资源切分，单集群可同时训练多个轻量化模型，经过通讯优化与容错机制增加算力糜费，成功训练本钱指数级降低。

随着国产大模型的兴起，万卡集群逐渐从“单义务算力消耗”到“集群效力最大化”过渡，经过模型优化、有效训练率优化、灵敏资源分配等手段，智能调度义务，将训练、微调、推理义务混合部署，从而优化集群综合运行率，降低单位算力本钱。

过去，多芯混训和激增的缺陷率等难题，成为万卡集群部署环节中的微小应战。而24年9月更新的百度百舸AI异构计算平台4.0（以下简称“百舸平台”），在万卡集群的树立中发扬了至关关键的作用。

首先，打破配件扩充性瓶颈，如卡间互联的拓扑限制，防止通讯带宽成为瓶颈；同时，围绕芯片及集群功耗，基于万卡规模惯例计划功耗可达十兆瓦或更高，采纳创新性散热计划，从而处置万卡集群的能效与散热疑问；完善模型的散布式训练优化，采纳高效并行化义务切分战略，训练支流开源模型的集群MFU优化至58%；在优化稳如泰山性方面，提供容错与稳如泰山性机制，防止由于单卡缺陷率随规模指数上升而构成的万卡集群有效性大幅降低，保证有效训练率抵达98%；最后，针对机间通讯带宽需求，树立超大规模HPN高性能网络，优化拓扑结构，从而降低通讯瓶颈，带宽有效性抵达90%以上。

百舸4.0构建了十万卡级别的超大规模HPN高性能网络，针对跨地域通讯中的高提早疑问，经过优化的拓扑结构、多途径负载平衡战略及通讯战略，成功了几十公里的跨地域通讯。在通讯效率上，百舸经过先进的拥塞控制算法和集合通讯算法战略，成功了完全无阻塞，并经过10ms级别超高精度网络监控，保证了网络的稳如泰山性。

在多芯混训方面，百舸展现了弱小的资源整合才干。它能够将不同地点、不同规模的异构算力启动分歧控制，构建起多芯资源池。当业务提交任务负载时，百舸可智能启动芯片选型，依据集群剩余的芯片资源，选择性价比最高的芯片来运转义务，从而最大化地应用集群的剩余资源，成功高达95%的万卡多芯混合训练效力。

此外，在集群稳如泰山性方面，百舸提供了片面的缺陷诊断手段，能够加快智能侦测到形成训练义务异常的节点缺陷。百度自研的BCCL（百度集合通讯库）能够加快定位缺陷并提供智能化的容错才干，将缺陷恢复时期从小时级降低到分钟级，极大地提高了集群的牢靠性和可用性。

日前，花旗银行公布研报表示，DeepSeek、百度等中国模型展现出高效和低本钱优点，将有助于减速全球AI运转开发，并在全球引发更多技术创新，推进2025年人工智能运转的拐点。中国工程院院士、清华大学计算机系教授郑纬民也表示，当下构建国产自主万卡系统充溢应战，但“至关关键”。

全国首个！天翼云上海临港国产单池万卡液冷算力集群正式投入运营

中国电信宣布，天翼云上海临港国产万卡算力池正式启用。这是国际首个投入运营的国产单池万卡液冷算力集群，标志着全国首个投入正式运营的国产化云智一体公共智算中心的降生。人工智能研讨院等八家协作同伴成为首批入驻用户。天翼云经过打造的人工智能公共算力服务平台，以公共普惠、创新抢先的算力供应和算、存、运一体的综合算力服务形式，片面赋能上海千行百业，成为上海“新算力”的关键一极。天翼云积极照应国度政策，深耕算力基础设备树立，在上海临港智算园区投建了全国规模最大的运营商级智算中心，投入运营的首个国产单池万卡液冷算力集群创新性采用网络中置、算力分层的“魔方”型设计，支持万亿级参数大模型训练所需的多机多卡并行、高吞吐无损通讯等需求。同时，该集群采用新一代智算液冷DC舱，成功数据中心能效和智算集群算效双优化，为“人工智能+”提供智能、弹性的绿色算力。目前，我国人工智能产业加快开展，正式运营的公共智算中心以自研TeleCloudOS4.0为底座，承载算力分发网络平台“息壤”、智算基础设备平台“云骁”、一站式智算服务平台“慧聚”，构建算力聚合分发新形式，成功全栈才干自主可控、安保可信。多项技术目的抢先，提供从算力供应、算力保送、算力调度到模型训练及推理运行的一站式服务。 “慧聚”针对大模型训练微调场景提供训推一体化算力服务，成功万卡资源调度；“云骁”支持国产芯片及高层框架，纳管万卡规模智算集群，成功多层次算力减速，全方位监控、缺点智能感知，支持超大规模集群长稳运转；“息壤”算力网络整合上海区域零散的通算、智算和超算算力，为企业提供普惠的智算调度服务。人工智能产业正迎来新机遇，算力服务在推进产业转型更新中作用清楚。天翼云将继续推进科技创新，夯实国云智算底座，减速人工智能技术效果转化，为数字经济开展蓄能添力，助力数字中国树立。

中国电信董事长柯瑞文：天翼云作为国度云曾经越过向智能云开展的拐点

第七届数字中国树立峰会•智算云生态大会在福州海峡国际会展中心举行。中国电信董事长柯瑞文在云生态大会高峰论坛上表示，天翼云作为国度云框架从基本成型到片面成型，已越过向智能云开展的拐点，进入了新的开展阶段。柯瑞文指出，天翼云在智算资源、网络、技术平台、数据要素、大模型算法与运行、量子等方面取得新打破。国云树立取得的效果包括全国“2+3+7+X”公共智算云池规划树立和京津冀、长三角地域两大万卡智算集群的打造，算力总规模继续抢先。同时，国云打造400G弹性无损智算广域网络，算力池间平均时延降低至9.7ms，无损网络总容量达600T。云计算技术与平台方面，打破算网编排、算力度量、跨域调度等关键技术，更新算力互联互通平台“息壤”，单集群调度性能每秒超越2000+实例。打造通智超一体化智算减速平台“云骁”与一站式智算服务平台“慧聚”。在数据要素方面，依托国云散布式技术和资源，树立全域大数据湖并提供一致服务，“灵泽2.0数据要素平台”已为18个省市提供安保可信的服务，跨行业买卖数据规模到达2PB/月。在大模型算法与运行方面，基于国云智算训练池，自训练并发布了千亿参数规模的星河语义大模型、视觉大模型和多模态大模型。教育、医疗、政务等行业已规模商用20多个行业场景大模型。在量子方面，自研“天衍”量子计算平台，成功176比特超导量子算力的融算计算，构建量子密码资源池与云间量子算力网络，片面优化国云抗攻击才干。柯瑞文表示，在人工智能时代，云计算作为基础资源和中心平台的作用日益突显。云计算弱小的计算才干和弹性可扩展性为AI提供了足够的计算资源，弱小的存储才干为AI提供了海量的数据支持，丰厚的组件与运行协助AI与各种场景加快对接。 AI技术的集成运行也促进了云才干的清楚优化。所以，进一步坚持和夯实云计算的中心作用是关键。中国电信一直坚持网是基础、云为中心、网随云动、云网一体，充沛发扬云网融合优势，走出了一条具有自身特征的云计算开展路途。中国电信的通常标明，既要掌握云计算和人工智能的开展趋向，结合实践，发扬自身优势，坚持云网融兼并充沛发扬其优势，坚持科技创新特别是科技自立自强。柯瑞文指出，中国电信下一步将重点做好四个方面的关键任务。一是放慢中心技术融合创新新打破，自研AI框架、算子减速库，推进大规模GPU集群算子与国产芯片减速框架适配，继续完善智算网络卡间集合通讯库，优化算网感知、跨域调度随愿自治等才干，强化跨域协同、多模态数据融合等技术才干，继续攻关通用大模型才干。二是推进智算设备树立再上新规模，完善全体树立规划规划，过度超前树立智算基础设备，在热点区域树立超万卡的超大智算集群，西部地域打造大规模绿色智算池，智算规模到达21EFLOPS。打造跨DC散布式无损网络，400G高速全光网全国掩盖，放慢向800G、1.2T超大带宽更新，初步构建全国一体化算力互联网。三是更新国云融数赋智新服务，以国云中心技术为基础，打造城市智能中枢特性底座，助力智慧城市全域数字化转型，为工业设备国产化改造和效能优化提供数据赋能。 AI重构一网统管、城市运管服、智慧医疗、全域旅游等数字平台，重点打造50+行业场景大模型，赋能数字社会和数字控制。围绕数据要素X执行，推进数据在多场景运行，推进数据要素价值充沛释放。四是深化国云智能生态新协作，促进科技资源共享与优势互补，推进智能云中心技术结合打破和创新运行。基于星河MaaS平台，聚合更多大模型产业链同伴，为客户提供一站式大模型服务。往年将开放超300个场景，与产业同伴携手打造兴盛且富有生机的产业开展新态势。柯瑞文强调，中国电信愿与各界同伴聚力协作，推进国云向智能云更新取得愈加清楚的实质性成效，共同为开展新质消费力、放慢推进数字中国树立作出更大奉献。

国产GPU万卡集群终于来了！摩尔线程CEO张建中：做难而正确的事

“AI主战场，万卡是最低标配！”在2024全球人工智能大会开幕前夕，摩尔线程开创人兼CEO张建中掷地有声地强调。大模型行业加快迭代，客户对训练速度有极高要求，假定训练一个5000亿参数模型，15TB数据，1000P算力要求3年才干成功，而将时期紧缩至2周或1个月，则最低需求是P算力。海外大厂如OpenAI、谷歌、Meta等已部署数万张高端GPU启动大规模训练，而国际云大厂如华为、科大讯飞、天翼云、中国移动等也已纷繁树立万卡级算力平台。但是，基于国产GPU的万卡方案尚属新颖。昨日，摩尔线程宣布其夸娥智算集群处置方案成功严重更新，从千卡扩展至万卡规模，这标志着国产GPU技术的新里程碑。该平台总算力超越10EFLOPS，目的有效计算效率超越60%，稳如泰山性达99%，支撑万亿参数级大模型训练。在青海、广西等地，摩尔线程已与多家企业达成战略签约，共建万卡集群项目。同时，多家AI基础设备协作同伴及大模型企业代表对夸娥智算集群的性能和稳如泰山性给予高度评价。张建中强调，夸娥万卡集群不只减速AI训练，更努力于为构建美妙全球提速。摩尔线程以国产GPU企业身份，率先投身万卡集群树立，面对大模型训练的迫切需求，克制了规模与通用性偏重的应战。从千卡到万卡，集群树立复杂度剧增，摩尔线程耗时近4年，构建起计算效率、稳如泰山性与生态兼容三大护城河。摩尔线程夸娥智算集群采用全性能GPU为基础，打造软硬一体化、完整的系统级算力处置方案。仰仗自研GPU、高效集群控制与AI软件栈，夸娥万卡集群提供超大算力与稳如泰山训练环境，支持万亿参数级大模型训练。生态兼容性好，能加快适配国际外主流软件生态，降低迁移本钱。无问芯穹、清程极智、360、京东云、智平方科技等企业代表在实战中验证了夸娥智算集群的性能与稳如泰山性，对摩尔线程的产品实力给予高度评价。国产万卡集群的落地，将减速AI行业的开展，缩短模型训练周期，降低创业门槛，最终推进生态兴盛。张建中坚信，国产GPU在市场推行、生态适配与生态开展方面面临应战，但经过提供优质技术、服务与极致性价比，一定能赢得客户满意。摩尔线程正处在生成式AI的黄金时代，GPU作为创新引擎，减速新技术浪潮的到来，为AI与数字孪生融合的数智全球打造先进的计算平台。随着夸娥智算集群从千卡向万卡无缝扩展，摩尔线程全栈AI战略将更片面地支撑行业需求。张建中表示，处置大模型训练的Scaling疑问，意味着行业难题已被攻克。摩尔线程将树立更大规模集群，提供更多的选择与创意空间，助力行业创新进程。