一起昇腾,共绽光芒

时间:2025-11-27 01:06:56来源:运维技术实践作者:数据库

2025年5月23日,共绽光芒在鲲鹏昇腾开发者大会2025期间,一起昇腾昇腾AI开发者峰会在北京正式召开 。起昇腾会上 ,共绽光芒华为昇腾计算业务总裁张迪煊发表了《一起昇腾,一起昇腾共绽光芒》的起昇腾演讲。他表示,共绽光芒昇腾打造了业界最大规模的一起昇腾昇腾384超节点  ,同时发布CATLASS算子模板库、起昇腾MindIE Motor推理服务加速库  、共绽光芒推理微服务MIS  ,一起昇腾持续升级分层开放CANN的起昇腾能力、MindSpeed RL强化学习套件 、共绽光芒大规模专家并行推理解决方案,源码库一起昇腾使能每一位开发者 ,起昇腾算子开发更简单 ,应用部署更便捷,模型训练和推理更高效 ,共建产业生态 。

以下是张迪煊的演讲全文

各位开发者朋友们 ,大家好 !

这一周,我们每天都组织一场关于昇腾技术解密的直播 。看了大家的评论后,我有个深刻感触 ,就是模板下载开发者对于昇腾技术如此纯粹和痴迷。同时,也涌现出了一批对于昇腾深入了解的开发者,自发成为了“昇腾课代表” ,解答直播中的各种问题,谢谢大家 ! 

昇腾这6年,从华为的百人团队发展到百万开发者生态,这一路以来取得的成绩,都离不开各位的支持与相伴,再次感谢每一位客户 、云计算伙伴以及广大开发者。随着昇腾产品的演进、技术的深度开放 、易用性的持续提升,昇腾产业的发展迸发前行。目前 ,超过5万名开发者 ,能够对昇腾性能深度挖潜 ,做出突破性创新,并进行开源贡献;累计培养了40多万学昇腾、懂昇腾的学生 ,香港云服务器他们开始逐步进入社会 、进入企业,成为了推动AI发展的中坚力量 。与高校打造“卓越中心和孵化中心”,针对前沿创新课题,孵化世界级科研项目 ,引领AI产业发展。

华为昇腾计算业务总裁 张迪煊

CANN分层开放 ,使能每一位开发者

CANN始终致力于使能每一位创新者 ,深度贡献的开发者已经从1000多人迅速增长到6000多人。在操作系统 、算子算法 、整图优化及加速库等各个层面 ,持续创新。免费模板互联网 、运营商、金融等30多个伙伴,开发了260多个高性能算子 ,在实际应用场景中带来业务性能提升 。

清华大学计图团队正是CANN创新的中坚力量 。基于昇腾构建起MoE专用的算子体系,实现INT4量化 ,MLA矩阵吸收等技术创新 ,达成性能与内存的双重突破 ,率先在昇腾单台Atlas 800 服务器上  ,部署满血版DeepSeek R1模型,服务器租用实现推理性能翻番 。

CANN始终坚持分层开放,我们开源了Ascend C 、算子加速库 、集合通信库等组件,并在Gitee上提供了丰富的参考样例 。同时还深度开放了Runtime运行时、毕昇编译器等接口 ,满足发烧友极致开发的需求 。过去,大家只能通过GE图引擎才能做整图调度优化。现在,可以利用aclGraph整图下沉接口 ,可直接调用最底层能力  ,大幅提升优化效率。基于开放的运行时接口 ,灵活组合,挖掘更极致的硬件性能。

今天 ,我为大家带来了昇腾AI的毕昇编译器。毕昇提供了端到端昇腾算子编译和调优能力 。

在前端表达层,借助其混合编程编译能力,实现Host、Device异构编译 ,支持Ascend C高性能算子开发。

在中端编译层,利用亲和昇腾微架构技术,自动完成指令调度与合并消减 ,减少多余的访存 ,让算子性能提升20%以上。在后端生成过程中,不仅能自动优化寄存器分配,还可基于动态二进制插桩技术 ,分钟级定位内存异常,通过源码回溯,可快速确认异常代码行 ,大幅缩短算子调试周期;同时,我们还将毕昇编译器里的AscendNPU IR接口开放出来 。联合智源人工智能研究院等伙伴 ,实现无感对接Triton、FlagTree等Python算子编程框架;

伴随AI技术持续突破 ,优化技术从模型层面的算法优化 逐步下探到底层硬件资源的极致利用。CANN是充分释放处理器极致性能的核心,我们在计算、通信、内存三个维度,加速AI技术引领。

首先 ,在计算上,MLA前处理涉及十三个小算子串行计算 ,多达20多次的数据搬入搬出,计算耗时占整体 25%以上。CANN通过Vector 和 Cube计算单元的并行处理、流水优化技术 ,非常好的掩盖了Vector计算耗时,将13个小算子融合成一个级算子 MLAPO ,一次下发即完成计算,耗时从109ms降至45ms 。目前 ,该技术已上线并广泛应用在互联网  、运营商等客户场景,带来20%以上的业务性能提升 。

其次 ,在通信上  ,传统的RDMA异步通信,一次消息的传输,需要三次信号同步 ,涉及至少七步的数据读、写 、校核的过程,导致HostBound问题凸显,严重影响通信效率 。大规模专家并行推理涉及专家间的大量小包通信  ,通过NPUDirect通信算法创新,直接下发指令到NPU的Vector核 ,实现一个消息,一次同步,将小包通信耗时降低90% ,整网通信耗时降低50% ,大幅降低推理时延,提升用户体验。

最后 ,在内存极致优化上,针对搜索、推荐等典型动态shape场景,内存被频繁的申请、释放,产生内存碎片。以往在数据读写中 ,物理内存与虚拟内存需一一映射,当部分内存一直被占用时 ,导致可用内存不足。为了将碎片内存充分利用起来,在NPU上 ,通过多重地址映射技术,物理内存可根据实际需求,动态切分并适配虚拟地址 ,将不连续的空闲内存拼接使用 ,带来内存利用率20%以上提升  。

去年发布的Ascend C 2.0提供了丰富的开发接口及调测能力。今天,我正式发布CATLASS昇腾算子模板库 。CATLASS按照计算粒度自上而下分层设计 。Device层是算子在CPU端的调用接口  ,提供完整算子能力;Kernel层则体现算子在NPU上的完整实现 ,涉及多个计算核的并行计算;进一步拆解到Block层,里面包含单个AI核的计算过程;Tile层则由数据搬入 、数据计算、数据搬出等步骤组成,可通过最底层的指令组装实现 。当前CATLASS模板库已在Gitee社区开源上线,并提供20个典型算子样例 。以Matmul算子为例,基于模板库开发,可以将开发周期从4人周缩减到2人周。同时,还可以通过调整接口参数,自定义优化算子切分策略 ,实现算子性能最优。 

昇腾384超节点,业界最大规模超节点

目前,MoE凭借其模型效果成为了主要模型结构 ,然而MoE却涉及最复杂的混合并行策略。其中,TP 、SP、EP的通信量高达百GB的级别,且通常无法掩盖 。随着并行规模的增长,传统服务器的跨机带宽成为训练核心瓶颈,需要通过计算架构的创新,满足未来训练的需求 。传统服务器之间通信通过以太网络互联 。这意味着 ,当模型切分超过8卡时,跨机通信带宽  ,就成为了主要瓶颈 ,导致系统性能急剧劣化 。

我们打破了以CPU为中心的冯诺依曼架构  ,创新提出了对等计算架构 ,并把总线从服务器内部,扩展到整机柜、甚至跨机柜 ,定义了超节点。在超节点范围内,用高速总线互联替代传统以太 ,通信带宽提升了15倍;单跳通信时延也从2微秒做到200纳秒 ,降低了10倍,真正让集群像一台计算机一样工作 ,突破性能边界!

基于超节点架构,我们打造了业界最大规模的昇腾384卡超节点 。昇腾384超节点由12个计算柜和4个总线柜组成 ,最大算力可达300 PFLOPS ,48TB高速内存 。同时 ,结合华为在ICT领域的技术积累及工程经验 ,可以将多个384超节点组成十万卡级的 Atlas 900 SuperCluster 超节点集群!以支持更大规模的模型训练需求。在客户的昇腾超节点实测中,LLaMA3等千亿稠密模型性能可达传统集群的2.5倍以上 。DeepSeek、Qwen等多模态  、MoE模型上 ,可以达到3倍以上的提升 。

MindSpeed RL 强化学习开发套件训练精度达业界商用水平 ,性能持续引领

深度思考已经成为必备能力 ,强化学习是深度思考模型的必经之路。相较于单纯的SFT微调,增加强化学习训练后 ,模型在逻辑 、数学、编码等专业领域上能够得到超过10%的精度提升,表现出令人惊艳的自我思考 、自我验证的能力 。然而 ,强化学习训练并非易事 。传统的SFT微调仅需输入行业数据,完成模型权重的更新即可。而强化学习则涉及训练和推理系统的反复转换,面临着系统级挑战 :

首先,训练推理任务互相串行等待  ,带来严重的资源空泡,资源利用率低;

其次 ,训练推理转换所带来的权重更新  ,导致大量跨节点通信 ,通信时延较高;

最后,多模型部署中  ,权重参数与KV Cache会占用大量内存 ,容易出现内存溢出。

为了让开发者能够快速构建强化学习训练能力 。我们吸取并沉淀业界丰富的开源算法 和加速能力 ,打造了MindSpeed RL强化学习套件 。同时聚焦发挥底层工程创新能力 ,提供大规模训推共卡、权重Reshard和调度优化等多场景加速技术,训练精度达到业界商用水平,性能持续引领  ,所有的能力都在Gitee上进行了开源 。训推共卡是强化学习的主流部署模式,但受限于通信时延高 、内存不足等问题,业界方案当前只支持较小参数的模型。昇腾提供了训推参数同步 、动态权重转换、内存调度控制等关键技术,支持千亿规模大模型。在训推转换的内存调度控制上,通过内存在NPU和CPU侧的加载和卸载,实现推理可用内存高达90%,提升推理性能;

同时,在Response生成阶段,参差不齐的样本序列长度,会造成资源空泡,我们通过对超长样本提前截断,截断的样本在后续step重组后进行推理 ,大大降低资源空泡率,在训练效果保障的同时,资源利用率提升20%以上 。为了让开发者快速上手套件能力,提供一站式开发指导,支持一键式脚本直调和乐高式灵活定制。

昇腾率先实现大规模专家并行使能千行万业极致推理

Tokens已成为AI产业发展的新量纲。随着深度思考模型普及 ,每次逻辑推理 ,都会带来20倍的额外Token生成,在2024年年初 ,中国日均Token消耗量为1千亿 ,而如今 ,每日Token的消耗量已达到了十万亿级,1年增长了100倍。Token的爆发,随之而来的是百倍的推理需求  ,这对推理系统提出了更大的挑战。用户首先关心应用体验,也就是时延;不同的应用场景有不同的时延需求 ,在满足时延的情况上 ,系统追求单卡的更大吞吐,实现更高的经济性 。同时,时延和吞吐  ,需要高可靠性的系统来保障。只有系统长期稳定提供推理服务,才能带来优质体验。所以,如何构建一个好的推理系统  ?这是我们一直在探索和实践的命题 。

随着MoE成为主流模型,我们通过不断实践 ,最终构建了一种更好的推理系统 ,一种针对MoE推理的最优解——大规模专家并行。相比常规服务器堆叠 ,大规模专家并行可实现2到4倍的单卡吞吐提升,降低50%系统时延,在相同卡数下获得更大的收益,实现“一份投入,多份输出”。

在3月份 ,我们联合科大讯飞发布了昇腾大规模专家并行方案 ,在2k输入、2k输出时  ,Atlas 800 A2单卡Decode吞吐从80 TPS提升到了240 TPS  。大规模专家并行 ,我们工程师们叫“大EP” ,是指把模型权重分布到更多的卡上,通过降低单卡内存权重占用 ,释放更多内存,用于用户并发所需的KV Cache ,最终实现更大的单卡吞吐能力;同时,每张卡专家数的减少  ,意味着权重加载时间更短 ,这可以让模型Decode更快 ,系统时延更低 。

从算子优化到服务调度 ,从极致加速到可靠设计,昇腾大规模专家并行方案是一个系统性工程 。在让用户获得更好体验的同时 ,还要满足系统的可靠性。基于这样的需求,昇腾推理解决方案持续升级。全新推出MindIE Motor,推理服务加速库 ,提供AutoPD分离 、精细异步调度 、高阶RAS等特性 ,Motor将在6月底与大家见面 。

过去的一个月 ,昇腾大EP的单卡Decode吞吐从 240 TPS 提升至 320 TPS,时延也从100ms降低至50ms  。

其中最核心的几个特性:

MoE模型涉及多专家协作 ,专家负载不均的情况时常发生 。可以通过冗余专家备份,缓解热点专家的负载 。但传统的静态方式无法根据负载的变化动态匹配冗余专家。我们通过专家热点信息的在线采集 ,实时调整冗余专家的部署方案 ,让冗余专家部署与业务负载实现最佳匹配 ,降低热点专家在单卡上的通信拥塞,实现了动态专家冗余 。另外,传统的专家调度方案没有将专家亲和性考虑在内 。所谓亲和专家,就是在请求中经常被同时激活的专家 。我们通过动态调整专家布放顺序,使得同节点、同平面的专家尽可能是高亲和的 ,从而减少卡间 、机间的通信量 ,进一步降低推理时延 。

推理的不同阶段,对资源要求是不同的,Prefill阶段是计算密集型  ,Decode阶段是访存密集型 。去年9月份 ,我们率先支持了稠密模型的PD分离,目前已经实现了MoE模型的PD分离 。6月底,还将进一步实现AutoPD分离部署。MindIE Motor将内置负载感知算法 ,实时监控PD节点负载率,并动态调整PD的比例。比如,当输入为超长序列时 ,Prefill负载增加 ,Motor会自动调度Decode实例变换成Prefill实例,缓解Prefill压力 ,使整个系统的资源利用率达到最佳。

实际业务中,用户感受的是服务化吞吐 ,然而服务化涉及多轮推理间的调度、CPU-NPU线程之间的流水线  ,吞吐与模型峰值之间存在“GAP” 。为弥补这一“GAP” ,我们对服务化过程中资源调用做了深入的分析,发现CPU和NPU并不总是同时在工作。因此 ,对任务调度 ,做了更精细化的切分。首先,增加了CPU与NPU的线程并行  ,让CPU的预处理与NPU的推理同时执行;其次 ,让NPU与NUMA亲和的CPU结对工作 ,降低CPU与NPU间通信开销。基于MindIE ,服务化能力已达到模型峰值的93%以上 ,后续也会将这些优化集成到Motor中  ,让大家在vLLM上也能够使用到同样的能力。服务化效果的最终呈现,取决于上层软件优化 ,希望与开源社区一起持续协同创新 。

训练面向开发场景,推理则面向生产场景,一旦出现问题 ,不仅影响体验,还可能带来经济损失。华为扎根ICT硬件可靠性30多年 ,以苛刻的标准锤炼设备,AI服务器的研发过程中就有超过上千次的碰撞测试 ,在7倍压强下做极限热测试,各器件达到电信级可靠。单机可靠只是起点 ,系统级容错才是真正的挑战。昇腾支持从集群管理 、冗余设计到实例切换  ,三重RAS防护,保障系统长稳运行 。第一 ,通过CCAE集群管理平台 ,实现亚健康检测和故障预测,保障集群硬件可靠;第二,大EP方案支持配置冗余节点,当出现故障时,MindIE Motor支持故障节点的自动替换,保持系统不降级;第三 ,如果没有配置冗余节点,出现了实例级故障 ,导致系统降级 ,Motor还可通过AutoPD算法,根据故障位置切换PD分配 ,自动恢复故障实例 ,保障系统性能损失最小 。通过这套组合拳,推理实例MTTR从原来依赖人工的小时级缩短至7分钟。

昇腾384超节点是业界唯一实现一卡一专家的方案。Deepseek为例,单个超节点在部署256个路由专家后,可以再部署32个共享专家,再增加96个冗余专家,整整384个专家 ,放入384卡超节点中 。昇腾384超节点支持所有专家都通过高速总线通信 ,专家负载更均衡。解决了传统集群在专家域增大时,跨节点通信瓶颈、专家负载不均 ,导致性能劣化问题 。昇腾384超节点也是业界唯一突破15ms时延的方案,追求实时深度思考下的用户极致体验的需求;另外,同样在50ms decode的时延下,单卡Decode吞吐达到业界服务器集群的4倍以上能力 。

MindSDK凝聚行业实践沉淀行业经验

随着AI智能体的成熟,今年将迎来真正的AI应用元年 ,应用将以AI为中心进行重构 ,AI Agent将成为交互中枢 ,以实现各类功能的规划、调用、甚至决策 。为了更好支持应用开发,这几年我们持续沉淀行业经验,打造了视觉分析 、特征检索、搜索推荐、知识增强 、自动驾驶等多个场景SDK ,并在持续升级;

随着多模态应用开发需求的普及 ,今天,我为大家带来了全新的多模态理解SDK ,支持视频关键帧抽取 ,数据预处理压缩等能力。

SDK只是应用开发的起点,要让应用上线 ,还离不开敏捷的部署 。传统的应用部署需要下载各类软件、配置环境 、部署模型、启动服务等7个大步骤  。在实际部署时容易出现兼容性问题和性能瓶颈,影响应用的易用性和扩展性。昇腾推理微服务MIS(Mind Inference Service) ,只需下载镜像 、启动容器这两步,即可快速部署推理应用。此外 ,昇腾微服务支持一键切换模型以快速适应业务变化 。推理微服务简化了部署流程 ,让开发者能够更加专注于应用的开发和创新。

昇腾社区进一步升级提供丰富  、友好 、活跃的开发者创新阵地

昇腾一直致力于为大家提供一个丰富 、友好 、活跃的创新阵地,结合各位开发者对社区的反馈 ,我们进一步升级了社区 。场景化统一入口 ,让资源更易获取 ,大家在昇腾社区 ,能够看到我们全新设计的架构图 ,匹配了技术特征的ICON设计 ,只需一次点击 ,进入对应场景化开发页面 ,你就能获取到与之配套的开发资源。

针对不同开发场景重新组织了文档编写,让开发者可以按场景聚焦核心内容 。通过对人机交互习惯的研究,优化文档的呈现方式,让文档更易理解。大家也可以通过社区工单、论坛等多种渠道反馈你们的真实声音,方便我们更好的提升文档质量  。

我们还提供了丰富的社区访问形态,通过响应式布局 ,支持PC 、手机 、平板等多个终端的体验,让大家更好的随时随地了解昇腾 。

昇腾持续开源开放与开发者共建中国最具活力开源项目

除了昇腾社区,我们更以开放的姿态共建昇腾生态 。开放昇腾模组 、板卡及参考设计 ,使能多样硬件创新。通过开源模型的0day支持 ,开发者可以第一时间基于昇腾享受业界最新模型;同时,随着PyTorch和vLLM等加速框架的支持 ,意味着当前所有训练和推理上的创新都可以基于昇腾快速实现;昇腾也积极参与与魔乐、启智、Gitee、GitCode等生态社区的共建 ,让开发者能够快速获取,昇腾适配的模型  、算法 、工具等能力和源码。

生态的繁荣离不开每一个开源贡献、每一行代码,MindSpore自20年开源以来得到了各位开发者的喜爱 ,累计收到25k个Star数 、PR合入请求11万条。Gitee指数2.0中,从创新力 、稳健性 、生产力等各维度综合评价第一,成为中国AI最佳开源贡献项目 。今年 ,我们在CANN的代码仓上  ,提供了18个开源项目,目前已经收到230多个贡献,为算子开发提供了更多创新思路。

昇腾持续关注开发者成长与伙伴生态构建。今年  ,开发者计划3.0将全新启航,为大家提供更丰富的成长体系和激励。希望大家能够在社区中分享并成长,解锁丰富权益 。同时,面向伙伴,昇腾围绕5大创新方向,从技术 、政策、生态及激励几个维度提供支撑 ,赋能伙伴打造更有竞争力的产品和解决方案 。

最后,我总结一下今天技术发布的核心内容:

第一 , CANN分层开放,提供aclGraph等细粒度Runtime接口  。毕昇编译器开放接口支持Triton 、FlagTree,全新发布CATLASS昇腾算子模板库 。

第二 , 为大家提供业界最大规模的昇腾384超节点。昇腾超节点突破了互联的瓶颈,让一个集群像一台计算机一样工作,典型模型训练性能达到传统的节点的3倍  。

第三  , 全新发布了MindIE Motor ,聚焦推理服务层的加速,提升大EP的能力,在昇腾384超节点 ,decode时延突破15ms,吞吐性能达业界的4倍 ,成为标杆。

第四 , 提供多模态理解SDK和昇腾推理微服务MIS ,希望简化应用的部署流程 ,更好的让每位开发者聚焦应用本身的开发和创新 。

这十年,我们一直在被AI技术的飞速迭代所刷新认知。然而,AI的角逐才刚刚开始 ,不是百米冲刺 ,而是一场考验耐力的长跑 。在这场长跑中 ,比的不是一时的技术突破 ,而是生态构建的厚度  、基础研究的深度、还有人才储备的浓度 。

让我们不断向上 ,以坚定的信念,持续创新 ,跑赢智能时代的长跑  ,谢谢大家 !

相关内容
推荐内容