首页  >  媒体动态  >  媒体动态详情

钱德沛院士:中国这一领域正面临4大变化和6大挑战

2024-04-24   中国科学报   阅读量:70

    文|《中国科学报》记者 赵广立

    近日,首届超算互联网峰会暨国家超算互联网平台上线仪式在天津举行。在主题报告中,中国科学院院士、北京航空航天大学教授钱德沛开门见山地分享了他对中国算力发展的担忧。

    “中国的超级算力经过30年高速发展,现在确实到了一个新阶段。在当今国际形势和技术发展条件下,需要思考如何实现发展的可持续。”他指出,我国算力发展目前正面临四大变化和六大挑战,亟需厘清应对可持续发展挑战的基本思路。

钱德沛院士。图片来源:北京航空航天大学

   

四大新变化

    钱德沛谈到,我国算力发展面对的新变化,主要与智能技术的发展有关。

    首先发生变化的是“问题求解模式”。传统计算场景如数值天气预报,大都是根据待研究对象的物理性质建立数学模型(数学物理方程),用初始和边界条件求解方程,计算得到待研究对象的特征和性态。

    如今,这种以“数学模型驱动”为主流的求解模式,正因“海量数据的使用”发生变化,“数据驱动”和“人工智能赋能”正走向舞台中央。

    利用数据之间的关系分析来发掘隐藏的规律,在社交网络和电子商务场景中更受青睐;通过数据训练的深度学习模型进行推理,更能快速得到理想的结果,AlphaFold就是经典的案例。钱德沛说,数学模型驱动、数据驱动和人工智能赋能这三种计算模式是共存的,但近两年来后两种“上升势头很快”。

    这也直接导致算力其上的应用场景发生变化,“智能应用成为主流”。

    当下,围绕大模型的研发如火如荼,利用AIGC技术自动生成内容的生产方式大行其道,科研领域也在推行AI for Scinece——利用AI帮助科学发现。

    第三个变化,就是“算力需求空前高涨”。

    不仅人工智能应用对算力需求急剧上升,传统科学与工程计算对算力的需求也持续增长。同时,行业技术进步、产业迭代升级也越来越依赖云计算、大数据,这些都需要澎湃算力。

    据统计,2022年我国智能算力总量达268EFLOPS,预计未来五年将保持52.3%的复合增长率,这使得对算力的需求呈现非常紧迫的态势。

    大模型对算力的巨大需求显然也是一个新情况。钱德沛说,大模型训练本就计算量大——据估计,每9.9个月翻一番,而随着新模型的不断推出和应用场景的扩展,中国未来要为大模型准备更多的算力。

    第四个变化是算力形态。

    通常,算力主要从云—边—端三个层面提供,但为了适应多样化的应用需求,云侧算力也呈现出多样化趋势。在云端,不仅有传统超算中心,还有强调整数或半精度浮点运算的智算中心、强调数据存储和虚拟化的云算中心。

六大新挑战

    有新变化,就有新挑战。钱德沛指出,我国算力发展面临着一系列新的挑战,其中有些是与世界上其他国家共同面对的,有些挑战则是我国独有的。

    首先,超级计算正面临技术瓶颈。他说,从近年来全球超算TOP500的数据也可以看出,超级计算机的发展遇到了性能增长瓶颈:性能增长已从每10—11年增长1000倍降到增长100倍以下。

    “我们不可能依靠系统规模的无限扩大来提高性能,很难想象一个系统中包括几十万个计算节点。”钱德沛说,除了能效指标的约束之外,摩尔定律接近失效、体系结构变化缓慢、新原理器件缺少突破等也是性能瓶颈的直接因素。

    而与此同时,诸如超导计算、量子计算等颠覆性技术的实用尚有距离。

    在这一背景下,我国的算力发展还要面临外部封锁的叠加效应,这致使我们在后续机研制中面临更多的技术挑战。他认为,我国超级计算机与世界最高水平系统的差距有拉大的风险。因此,解决“卡脖子”难题必须要有底线思维,不能存在幻想。

    作为计算基础设施必须考虑的问题,能耗这个关键制约因素所带来的挑战谁都无法绕开。

    数据显示,2022年全国数据中心耗电量达到2700亿千瓦时,占全社会用电量约3%,预计2025年左右会升至5%。钱德沛指出:“双碳指标约束下,计算机系统研制和数据中心建设必须考虑能耗因素。”

    “大模型训练与推理能耗高企”集中反映了能耗问题的紧迫性。有数据统计,GPT3训练一次的能耗高达250万千瓦时,相当于300多吨标准煤的供应;ChatGPT每日对话的能耗和碳排放量分别为6.3万千瓦时和7.8吨标准煤,也是一笔不小的消耗。

    钱德沛接着谈到,应用和算力的多样化带来的新挑战,也愈演愈烈。

    底层计算有多种多样的体系结构,上层有多种多样的应用形态,如何让应用在不同计算系统上发挥更高性能和效率,“是个很大的问题”。钱德沛指出,在这方面,异构计算资源高效调度和使用、异构编程等都成为适配应用所面临的基本问题。

    例如,自研智能芯片的多样化和异构化,以及上层应用多种多样的模型,给推理系统代码的落地带来了困难——模型代码难以依赖编译在各种芯片上高效实现。

    对我国而言,“关键应用软件对外依赖程度高”的挑战,是我们亟待改观的方面。

    目前,我国95%以上的大型科学与工程计算软件依赖进口,价格非常昂贵。钱德沛指出,这不仅是经济性的问题,还涉及更深层次的权益。他说,国外没有源代码的商业软件无法通过编译直接在国产计算系统上运行,即便有源码,软件可以再编译,但仍需要大量的移植工作才能适配国产超算。因此,关键应用软件对外依存度的问题需要解决。

    最后,钱德沛指出,我国的超算基础设施的服务能力和运营机制也亟待提升和改进。

   

应对挑战的4个基本思路

    “由于这些挑战,我们面临非常艰巨的可持续发展任务。”钱德沛说,在严峻的国际形势、人工智能等异军突起、日益凸显的技术瓶颈、算力基础设施运行难、人才队伍不足和流失等挑战面前,中国算力发展需要在体制方面有创新,并更多关注于取得应用实效。

    作为应对之策,他提出 ,有四个方面的思路和路径“可以考虑”。

    第一方面,要在处理器、芯片集成等关键技术上另辟蹊径。

    “芯片研发要有‘打持久战’的准备,不要幻想速胜,更不能躺平。”他提出,没有先进的制造工艺,那就从应用效果入手,发展面向应用领域的芯片,依靠软硬件协同,系统综合优化挖掘潜力,以最终应用效果论英雄。

    此外,“另辟蹊径”还包括但不限于“通专结合提高芯片性能”“挖掘芯片设计自动化(AI生成能力用于处理器设计)的潜力”“使用先进的系统集成技术得到好的性能”等。

    第二方面,要发挥系统结构优势。

    钱德沛表示,现在超级算力存在片内异构、节点内异构、系统级异构三种系统结构,不同的结构各有其优缺点。他设想,未来的计算系统能否包含一种以上异构形态,这样就可以由软件定义系统的配置,从而实现更高性能的算力输出。

    这其中需要注意两个细节。

    其一,要通过编译优化来挖掘系统潜力,例如针对诸多深度学习框架和诸多加速硬件,可以发展深度学习编译器,减少“源码到可执行代码的多对多转换”这类繁琐的工程性工作;其二,要重视基础算法创新。并行基础算法是软件优化和硬件加速的汇聚点,算法创新可能获得比硬件提升更大的收益。

    第三方面,通过学科交叉、软硬协同和发挥系统优势,研发面向领域的计算系统。

    钱德沛指出,这背后有一系列的基本步骤可以遵循。大概如下:理解领域计算的特征——抽象出领域计算的基本算子——设计体现基本算子的处理器指令系统——研发实现某些算子的特殊加速部件——开发相应的系统软件和编译系统——研制开发库和应用开发环境。

    他提到,在人工智能领域,可以专注在“大模型研发和应用”和“发展高效推理系统”两方面。

    首先,“百模大战”不可持续,从技术和经济上看,更合理的途径是逐步收敛到少数优秀通用大模型,基于通用大模型,针对领域应用问题开发领域模型。

    其次,基于领域模型,通过软硬结合来研制高效的推理系统(如借鉴美国Anton机的经验),应用于工程师、科学家的日常工作,推理系统可以批量推广,也有利于计算机制造企业的发展。

    第四方面,要建立国产超级计算的完整应用生态环境。

    “国产超级计算机的应用生态买不来。”钱德沛说,应用对生态依赖程度非常高,因此一定要在自己的系统上建立应用生态。

    他进一步指出,目前正在构建中的国家超算互联网,是一个具有互联网理念和特征的超算基础设施,目标是充分利用资源、降低应用门槛、普及超算应用。

    现在,超算互联网上面有算力资源提供者、应用资源提供者、应用服务提供者、运行管理者等各种各样的角色,希望不断扩大其用户群体,使其具有不断创新和自我生长的动力。下一步,要通过建立角色之间的商业模型来鼓励大家参与。

    “同时,也鼓励更多的力量投入超算应用的事业,让更多的行业和领域受益于超算,使超算从‘阳春白雪’走向‘千军万马’,让天下没有难用的超级计算机。”钱德沛最后总结说。

    编辑 | 方圆

    排版 | 郭刚