智算·深度@特大号|吞吐量超12000tokens/s的DeepSeek满血一体机,究竟有何意义?

联想基础设施业务群

发布于:2025-05-29

摘要:

吞吐量超过12000tokens/s,满血版DeepSeek!
这是目前为止,我看到过的国内厂商8卡DeepSeek一体机,创造的最高纪录。
自从年初DeepSeek爆火,各大智算厂商就在不断地挑战:如何用一体机跑出满血版的最佳效果?
于是乎,半年来满血一体机的吞吐量纪录不断被刷新,从最初的2000多,到5000、6000、8000,再到10000多……
如今,这数据被干到了夸张的12000+!
大家对这个事这么上头,究竟是为啥?一体机真有这么大需求吗?
其实,这件事的核心在于,算力需求的基本盘,变了。
之前,百模大战,主要需求是大模型预训练,强调算力的高MFU、高可用。
现在,大模型应用落地,需求开始多样化,训练、训推、推理,不仅强调高MFU、高可用,还要高吞吐、低延迟。
而且,随着各种大模型项目在千行百业落地,实际部署、优化涉及到五花八门的情况。
没点真功夫,很难满足需求。
所以,表面上智算厂商们狂炫一体机,铆足劲拉吞吐,实际上,是把它作为自己练功的“木人桩”。
有了这个业界都买账的“活靶子“,通过持续工程优化,把实战能力练到极致,就可以去适配更复杂的行业落地场景。
就拿创造”12000+ tokens/s“吞吐纪录的联想来说,在这背后,联想练就的大模型落地能力,早已远远超过了一体机范畴。
最近,在「2025联想创新科技大会」上,在披露这项纪录的同时,联想也揭秘了背后的黑科技——联想万全异构智算平台3.0
这不是我第一次关注到「联想万全异构智算平台」,想了解其基础能力的朋友,可以翻看这篇,五大基础能力介绍↓
比智算更猛的,是异构智算!
这一次,我来划划新重点:“联想万全异构智算平台3.0”带来的四大全新技术——
1、AI推理加速算法集
这套“加速秘笈",包括了针对MLA、混合精度量化、分布式并行等策略的一系列二次优化,提升推理吞吐量、降低时延。
在这套算法集的加持之下,大模型推理性能可以提升5-10倍,与业界最优社区方案相比,保持20%+优势。
所以就有了这样的炸裂成绩:单机8卡服务器,支持190路用户同时使用满血版DeepSeek。
2、AI编译优化器
这个优化,贯穿了AI开发框架、计算路径、算子、驱动层以及各种异构加速卡。
采用算子融合、算子替代、路径优化手段,大幅简化计算过程。
就这样,通过构建计算图过程中的优化,一顿操作猛如虎,训推开销各降15%
3、AI训推慢节点故障预测与自愈系统
搞过训练和推理的老司机都知道,节点故障是“家常便饭“,而且不可避免。
尤其在GPU异构、集群场景复杂的情况下,故障率会更高,一旦停摆,训练进度受影响,推理体验打折扣。
不用慌,现在可以“提前治未病”,还有“速效救芯丸”,让AI集群自己预测故障、发现故障、诊断和修复故障。
联想通过多年训推实践积累起来的训推故障特征库,用AI模型来完成预测和诊断,自动化排除故障点,并通过多机缓存极速读取和恢复训推环境。
最终,在实战场景,故障自愈时间可以做到百卡故障秒级恢复、千卡分钟级恢复、万卡十分钟级以内恢复,大大提升训练效率和推理体验。
4、专家并行通信算法
DeepSeek爆火,让MoE这种专家混合模型流行度飙升,最新发布的Qwen3也提供了相应的MoE模型(235B)。
与传统稠密模型比,MoE模型通过激活少量专家来降低推理算力开销,但模型的并行通信复杂度和通信量也随之大大增加了。
虽然DeepSeek官方给出了一套专家并行的优化指南,让计算和通信叠加,提升效率。
但这套方案受限于特定N卡和特定集群架构,并不完全适用于千差万别的行业场景。
“联想万全异构智算平台”的专家并行通信算法,是一种架构自适应的细粒度计算、通信协同优化技术。
目标就是希望适配不同GPU/加速卡、网络环境、集群规模等等。
而且,联想也把这种通信优化,作为一种服务来交付,为不同的行业场景提供定制化调优。
无论是DeepSeek还是Qwen3,无论是N卡还是A卡、国产卡,无论RDMA网还是IB网,无论小集群还是巨无霸,都能跑到极致。
你没想到吧,高吞吐的满血一体机,只是热身秀肌肉,这背后的「联想万全异构智算平台」,才是联想苦练的真功夫
当然,为了满足“后训练时代”的新需求,联想在「Tech World 2025」上还放出了一系列大招。
比如,在算力层面,联想针对数据处理、AI训练、AI推理对算力需求的差异,分别推出了不同的服务器家族,主打一个“拳拳到肉、切中要害”。
存储力层面,重磅发布联想凌拓全新存储产品家族,以及具备本地自研、自有知识产权、自主可控三大特征的联想存储新品牌——联想问天。
运载力层面,发布高密度400G交换机联想问天 NE8770-64QC,专为AI训推场景深度优化。
至此,存算网的“buff”全部叠齐,联想万全异构智算平台3.0的“内功”炼成。
“大模型2.0时代”的联想,战力彻底拉满!

点击下方图片,了解更多故事

图片
图片

点击阅读原文,了解联想ISG中国