实现99.99%超高可用性,上海智算科技团队建成国内第一批万卡集群

2026-04-07 00:15:57

机房内风扇的轰鸣声日夜不息,上万张GPU设备整齐排列。在这里,每张芯片每秒执行上万亿次运算,它们两天汇聚的能量,相当于三峡水电站一台机组整整一小时的发电量。

这幅震撼景象,来自上海松江的一座万卡集群——由上海仪电旗下上海智能算力科技有限公司建成的首个万卡级算力集群,背后是一支平均年龄不到33岁的年轻团队的倾力付出。

为什么要建万卡集群?随着大模型参数从千亿级迈向万亿级,单张或少量GPU已无法满足训练需求。万卡集群应运而生——它通过高速网络与配套软硬件,将一万张及以上GPU卡整合为超大规模的高性能智能计算系统,从而显著提升训练效率、缩短训练周期,加速模型能力迭代,为AIGC、科学智能、金融风控等领域注入强劲算力。

目前,智算科技已建成多个万卡集群,并逐步形成规模化、专业化、集约化的运营格局,为许多重要大模型企业以及研究机构提供了低成本算力服务。

淬炼出一支“嗷嗷叫”的团队

2023年,全国首个大模型专业孵化和加速载体——上海“模速空间”创新生态社区暨人工智能大模型产业生态集聚区在徐汇滨江揭牌。

在上海仪电与徐汇区政府深化战略协同的背景下,智算科技联合“模速空间”成立青年突击队。如今,团队已从最初的不到10人,壮大至100余人。在万卡集群建设、某新型研发机构集群建设等重点任务中,团队成员以精益求精的态度,圆满完成交付任务,为相关科研工作的顺利推进提供了坚实保障。

“我们团队的平均年龄不到33岁。”智算科技董事长、总经理、党支部书记孙跃介绍,团队成员中,约一半来自互联网大厂,还有相当一部分来自上海仪电,都具备扎实的技术与业务能力。

光是引进相关行业的人才还不够。孙跃告诉记者,随着大模型近几年快速发展,才对万卡集群有了实际需求。因此,这一领域即便在全球范围内也是一个新兴事物,真正拥有丰富经验的人并不多。“所以,我们的人才都是在实战中锻炼出来的,是像淬火一样,一点一点磨出来。在这个过程中,我们还要把不同个体凝聚成一个团队,把整个团队的组织能力和战斗力充分激发。”

在实战中,团队不断交出亮眼成绩单,已具备万卡规模高性能算力集群的部署和交付能力。首创“动态感知调度方案”,使训练效率飙升,实现了混合架构万卡集群调度技术的自主可控。

孙跃表示:“每一位成员都像嗷嗷叫的小老虎,正是这种状态,支撑我们在短短两年之内实现了快速的跨越式发展。”

算法攻坚,抢占每一秒进度

“建设万卡集群的过程中,买卡并不是最难的,”孙跃说,“但是要把万卡算力的芯片配上高效的通信网络和存储设备,让它们像一台电脑一样整体高效运转,这在技术上有一定难度和挑战。难度更大的,是让这个集群7×24小时不间断提供算力服务。”

万卡集群的规模究竟有多大?智算科技系统平台部负责人翟雨佳介绍:“单台服务器拆解开来,能看到一百多种零件组装在一起,我们必须对每个组件都了如指掌。它们对机房基础环境的要求极为苛刻——散热、供电、冷却、洁净度,任何一个环节出现问题,都可能导致运行不稳。”

苛刻到何种程度?智算科技系统工程中心总监、团队负责人胡宝群举例,几乎所有万卡集群在建设过程中都会遇到的问题,竟是微小的“灰尘”。“光模块是服务器中的关键部件,极易受灰尘影响。建设万卡集群的‘第一课’,就是解决灰尘问题。”为攻克这一难题,团队提高了所有环节的洁净度标准,不仅机房需达标,楼道与整层楼也必须符合要求。此外,团队要求光模块拔出后三秒内必须插回,以防灰尘侵入。

万卡集群在长时间运行过程中,还需每日面对故障问题。

单一部件的故障率无法降至0%,因此在万卡乃至更大规模的集群中,故障不再是“万一”,而是每天都将发生的“必然”。

然而,在大模型训练时,哪怕仅仅1分钟的算力中断,都可能会造成几十个小时的训练结果损失。面对万卡集群稳定运行难的痛点,团队曾连续79天吃住在机房驻守,为了0.1%的效率提升每天熬红双眼反复打磨代码,开展算法攻坚,抢占每一秒进度。

一天下午,万亿参数大模型训练进入关键阶段,团队却突然接到客户的反馈,跑某个大模型的TGS出现严重抖动。多个小组同时进场,从不同角度同步排查,奋战到晚上八点,终于锁定问题根源——一个“幽灵用户”的异常流量挤占了网络资源。晚上九点,异常流量被隔离,TGS的抖动立竿见影地大幅缩小。凌晨两点,团队又开始了新一轮的参数优化,向更优的性能发起冲击,不仅解决了TGS抖动,还使其速度提升了8%。

“我们的目标是从发现故障到恢复业务,控制在五分钟之内。”胡宝群说。团队已运用自动化工具以及AI大模型,实现故障的快速发现与提前预判,从而进一步提升集群的可靠性与运行效率。

如今,团队成功实现了集群99.99%的超高可用性,相当于全年故障时间缩短了378个小时。这一成果有力支撑了某大模型公司等多模态大模型在全球范围内的领先训练,成功避免了算力中断可能造成的巨大损失。

立足上海,向未来出牌

当前,上海正以国家战略为牵引,牢牢把握通用人工智能的发展机遇,夯实算力与语料基础能力,推动基础模型创新发展,全力打造具身智能、智能终端、AI智能体等爆款产品。

在这一布局中,智算科技作为上海市智能算力公共服务平台核心企业,已经初步构建形成包括基础软件、模型研发、推理部署与加速、系统集成与应用等服务厂商组成的智算服务产业生态,有效支撑了本市大模型战略性客户和重点企业的创新发展,为行业垂类、端侧大模型研发应用提供“多层次、全方位”算力服务保障,持续赋能新一轮城市数智化转型。

谈及未来,翟雨佳表示,智算科技在夯实智能算力设施底座的同时,正加快从算力基础设施供给向智算云综合服务转型,致力于成为国内领先的智算云服务商。

目前,智算科技已建成上线具备自主知识产权的智算云平台,基于微服务框架实现训推优化、数据集成、模型研发、云平台管理和跨域算力调度等功能服务。

智算科技的人才需求仍在高速扩张。“我们已经搬了五次办公室,行政同事拓工位的速度赶不上人事招聘的速度,而人事招聘的速度又赶不上集群建设的速度。”孙跃笑着说。

胡宝群表示:“我们希望加入团队的人才能够拥有足够的创造力,打破当前基于既有工作或已有认知所形成的种种局限。要做下一代的工程师,而不是只做当代的工程师。”

原标题:《实现99.99%超高可用性,上海智算科技团队建成国内第一批万卡集群》

栏目金志刚

本文作者:新民晚报 叶薇 实习生 张依文