◇强调应用实效并不意味机器性能不重要,只是不以机器性能为唯一指标,而是把更多的力量放在软硬结合、应用优化上,以取得应用实效为硬道理
◇算力的巨大需求刺激超算发展,超算正在努力适应AI的需要,增强半精度浮点和整数运算能力,发展多种硬件加速器,高效支持AI的特征操作
◇推动超算互联网服务AI应用,需要汇聚超算、智算等算力中心的异构算力资源,对资源进行池化管理与统一调度,而芯片多样、体系异构、全局存储、高速互连等难题直接或间接影响算力调度系统的设计,需要发力解决
文|《瞭望》新闻周刊记者扈永顺
超级计算能力是衡量一个国家或地区科技竞争力和综合实力的重要标志,是国之重器。近年来我国研发的高性能计算机支撑了系列重要科学研究和工程建设项目,无论在核聚变装置设计和高能物理计算,还是国产大飞机C919的空气动力学分析和海洋石油钻井平台的研制,以及模拟人类大脑能力的类脑智能和创新药物研发方面,都有超算的协助。
步入数字经济时代,算力成为新型生产力。AI和大模型的发展对算力提出了前所未有的新需求,但急剧变化的国际环境对我国超算的可持续发展提出了严峻挑战。“以应用成效论英雄,从机器性能世界领先转向应用成效世界领先,应该成为我国高性能计算发展追求的新目标。”中国科学院院士、北京航空航天大学计算机学院教授钱德沛向《瞭望》新闻周刊记者表示,超算互联网正是在这个背景下提出的重要任务。
4月11日,国家超算互联网平台上线,聚焦降低算力使用门槛,提高资源利用效率,为数字中国建设、数字经济发展等提供坚实支撑。“基于互联网发展理念,超算中心提供超级算力,在超算互联网上构建领域应用平台,把各种应用软件提供给用户,使得更多用户能方便获得需要的计算应用资源,让超算的使用更为普及。”钱德沛介绍。
超级计算发展面临新形势
《瞭望》:我国超算经历了怎样的发展历程?
钱德沛:过去30年,在我国科技人员的努力下,高性能计算事业取得了长足进步。性能也即运算速度是衡量超算水平的世界公认指标,按计算机性能划分,我国经历了4个阶段,每个阶段计算机性能提高1000倍,即从G级(每秒10亿次)到T级(每秒万亿次),再到P级(每秒1000万亿次),再到E级(每秒百亿亿次)。相对应的典型计算机系统是早期的曙光1000(G级),20世纪末的曙光3000(百G级),本世纪初的联想深腾6800和曙光4000A(T级),接着是天河一号、曙光6000和神威·蓝光(P级),神威·太湖之光和天河二号(百P级)等。“十三五”规划提出要突破E级(1000P级)计算机核心技术,也已实现了研究目标。
自主研发的神威、天河、曙光系列超级计算机已11次位居世界超算TOP500排行榜第一,大气模拟、地震模拟、量子模拟等关键领域大规模并行计算应用三次获得世界高性能计算应用最高奖“戈登·贝尔”奖。全国范围建成由14个国家超级计算中心支撑的国家高性能计算环境(中国国家网格)等战略性信息基础设施。
《瞭望》:当前超算发展面临哪些新的挑战?
钱德沛:当前超算发展遇到瓶颈,TOP500的数据说明,超算性能增长从过去每10~11年增长1000倍降到了增长100倍以下。
首先,能效指标约束下不能依靠扩大系统规模来提高性能。2022年,美国橡树岭国家实验室研发的超级计算机Frontier成为世界上第一台百亿亿级的E级超级计算机。该机是此规模系统世界最好水平,但每小时仍耗电2万多度,相当于数十万台笔记本电脑的耗电量。在我国双碳指标约束下,计算机系统研制和数据中心建设必须考虑能耗因素。
其次,计算架构师们一直信奉的摩尔定律已经接近其极限。体系结构变化缓慢,量子计算机等颠覆性技术距离实用尚有距离,新原理的计算和存储器件缺少突破,算法、软件和硬件之间匹配不良等问题,导致超级计算机性能的提升放缓。
再者,我国后E级计算机的研制面临挑战。目前用于研制后E级系统的高性能处理器/加速器需进行进口替代;克服“存储墙”壁垒的HBM内存及新型存储器件方面我国与世界最先进水平仍存差距;自主高端处理器的研发和制造仍受制于人。
此外,我国超算应用软件对外依赖度较高,多数并行的科学与工程计算软件依靠进口。
《瞭望》:为什么说我国超算追求的新目标要从机器性能世界领先转向应用成效世界领先?
钱德沛:如前所述,超算技术和国际形势正在发生变化。大模型等AI应用的兴起使得算力需求急剧上升。AI需要更多的是半精度浮点运算和整数运算,而不是传统衡量性能的双精度浮点运算。而且随着机器规模的不断扩大,发挥系统全机能力的并行计算变得更加困难,能否使应用软件充分发挥并行硬件的优势成为必须解决的难题。再者,当前依靠自主技术,在不是采用最高性能处理器实现的系统上,取得世界领先的应用成效,是赢得主动的关键。
强调应用实效并不意味机器性能不重要,只是不以机器性能为唯一指标,而是把更多的力量放在软硬结合、应用优化上,以取得应用实效为硬道理。
AI带来机遇
《瞭望》:智算与超算有什么区别?
钱德沛:超算提供的是超强双精度浮点运算能力,主要用于解决数值模拟和第一性原理计算等科学与工程计算问题,如气象数值预报、材料计算、流体动力学计算等。通过用数学物理方程建立待研究对象的数学模型,在初始和边界条件下求解方程,得到待研究对象的特征和性态,这是开展预测性科学研究的经典手段。
随着大数据和深度学习技术的出现,出现了新的问题求解模式,即AI赋能的模式,对应的计算称之为智算。在智算模式下,采用人工神经网络作为被研究对象的模型。在训练阶段,使用大数据反复训练模型。在求解或者说推理阶段,将待解问题的数据送入模型,得到结果输出。模型的训练和推理主要使用半精度浮点数或整数运算,这是智算不同于传统超算之处。
《瞭望》:AI的快速发展对超算带来哪些机遇与挑战?
钱德沛:传统的超级计算机也可以完成模型训练和推理的任务,但是其超强的双精度浮点运算能力得不到充分利用,反而消耗了更多的电力,而智算所需要的半精度浮点数和整数运算性能又不足,这是智算给传统超算带来的新挑战。
伴随AI的快速进步,超算也迎来新的发展机遇。AI催生了前所未有的巨大算力需求,AI大模型通常拥有千亿以上参数,其训练依赖大算力,例如若使用每秒1000万亿次的超级计算机训练一次GPT-3模型,需要连续运行3600余天。算力的巨大需求刺激超算发展,超算正在努力适应AI的需要,增强半精度浮点和整数运算能力,发展多种硬件加速器,高效支持AI的特征操作。
此外,机器学习、深度学习等AI技术具有解决高维数学问题的强大能力,催生了一种新的科研范式,即AI For Science,或称科学智能。目前AI方法在蛋白质结构预测、新材料设计、天气预报、大规模分子模拟等方面取得了突破性进展,正在改变这些领域依赖数值模拟的传统局面,推动了超级计算与AI的融合发展。一方面,超算的并行计算能力是AI for Science的基础。AI算法通常涉及大量的并行计算,而超算的多处理器架构和并行计算能力能够充分满足这一需求。另一方面,AI for Science所产生的新方法和新软件将极大丰富传统超算的软件资源,提高其解决复杂挑战性问题的能力。
抓住AI发展的契机,能够带动超算领域硬件、算法、软件、应用和系统的协同创新。
构建支撑AI应用的超算互联网
《瞭望》:超算互联网是如何提供快捷算力服务的?
钱德沛:超算互联网是一种基于互联网理念,借鉴互联网应用的成功经验而发展的超算基础设施。它追求应用资源的互通共享和高效利用,开拓应用开发和服务的新模式,力求改善用户体验,帮助用户更好地解决应用问题,同时也为资源提供者,服务运营者创造更大的价值。
首先,超算互联网提供更多样的资源部署模式,用户可以根据自身业务需求选择合适的资源部署模式,并可动态调整。例如,同时使用公共算力和私有算力的混合云部署模式,使用多个算力中心资源的多云部署模式,支持中心训练与边缘推理一体部署的云边端协同模式等。
其次,超算互联网提供更多元的应用服务,为用户带来多样、便捷、场景化的算力使用模式。用户既可直接访问超级计算机来运行自己的软件,也能通过应用服务平台使用应用服务,或通过应用场景APP获取算力服务。该模式下,用户按需使用应用软件,按使用量付费,无需关注其使用的算力类型和地理位置,甚至无需关注使用了什么应用软件,从而大幅降低用户的算力使用门槛。
第三,提供更良性的算力中心竞合模式。相比单个算力中心独立为用户提供服务,超算互联网通过一体化算力服务平台,允许用户选择最合适的算力中心或同时享受多个算力中心的服务。算力中心之间也将从竞争走向竞合,从而弥补自身资源与能力不足,更好满足用户需求。
第四,提供更紧密的产业生态协作模式。在超算互联网上,活跃的不仅是算力的提供商和消费者,更有大量的应用软件商、应用服务商、数据提供商、代算商、技术与信息提供商、居间服务商等多元角色。超算互联网平台通过在线一站式配齐算力、软件、数据、模型、技术服务、技术资料、培训等各类要素资源,促进供需高效对接,从而形成算力产业的生态大协作平台。
《瞭望》:推动超算互联网服务AI应用,还需解决哪些难题?
钱德沛:要推动超算互联网服务AI应用,需要汇聚超算、智算等算力中心的异构算力资源,对资源进行池化管理与统一调度,而芯片多样、体系异构、全局存储、高速互连等难题直接或间接影响算力调度系统的设计,需要发力解决。
芯片方面,随着应用需求和芯片技术的发展,计算芯片呈现多样化发展趋势。算力中心的计算芯片主要包括通用处理器和AI处理器,提供不同精度的计算能力。目前国产AI芯片发展快速,如百度昆仑芯、华为昇腾、寒武纪等,还需大力完善国产AI芯片的应用生态,解决应用便捷开发和运行稳定性等问题。
体系异构方面,异构计算已成为算力中心的主流架构。全球超级计算机超三成使用异构架构,智算中心中异构系统更加普遍,如CPU+英伟达GPU、CPU+深度学习处理器/加速器等结构。多种异构架构及加速硬件的出现,增加了并行编程的复杂性和算力调度的难度。要解决AI应用与异构硬件的适配问题,在改善应用性能的同时提高资源利用率。
高效存储方面,要在超算互联网、多云互联的环境下,建立跨域虚拟数据空间,构建覆盖多中心的全局数据资源视图,实现数据全局可视、跨域数据访问与调度、跨中心智能化数据管理等必要功能,更好地满足数据迁移、存储布局优化、故障预测、数据保护等需要。
高速互连方面,要充分考虑AI应用对计算节点内、计算节点间的互连需求,在保证更高数据传输速率、更大数据传输带宽和更低数据传输延迟的同时,提高互连的稳定性和可靠性,以保证大模型训练等AI应用的长时间稳定运行。此外,还要提高算力中心内部和算力中心之间的网络性能,以支持更大范围的资源共享和协同工作。
(《瞭望》2024年第19期 )