首页  >  观点建议  >  观点建议详情

中国算力大会对话|刘韵洁院士:国产算力要通过GPU集群补短板

2024-09-29   新京报   阅读量:460

    中国工程院院士刘韵洁接受新京报贝壳财经等媒体采访时表示,短时间内国内端点GPU仍无法与国外竞争。弥补短板的可能办法是建设算力网络“把整个算力练起来”,发挥GPU集群效果。

    AI(人工智能)时代同样也是算力的时代。国内外的科技企业、电信运营商纷纷“卷”起了万卡乃至超万卡,但生态兼容、异构计算等难题也成为行业必须翻越的高山。

    9月28日,在2024中国算力大会开幕式期间,中国工程院院士刘韵洁接受新京报贝壳财经等媒体采访时表示,短时间内国内端点GPU仍无法与国外竞争。弥补短板的可能办法是建设算力网络“把整个算力练起来”,发挥GPU集群效果。

    另外,他指出,不能简单判断哪类企业建设算力网络更有优势,主要还得通过技术评判。“看你的技术能不能使用、怎么发展,看你的创新、走的路径是不是符合需要。”对于算力成本问题,他仍强调“要用新技术解决”。

    目前,刘韵洁研究的确定性网络技术能节省60%到70%的成本,他联合其他机构推出的算网调度项目,能够实现多个异地训练达到单点训练80%的效率。

中国工程院院士刘韵洁。受访对象供图。

    建议走行业大模型赛道,要解决数据流通和算力利用率问题

    “中国要走行业大模型这条路。”刘韵洁在主旨演讲中强调。他认为,国内通用大模型短期内跟美国相比可能差距较大,并且追赶起来具有一定难度。

    他提出,国内模型企业如果能够在通用大模型基础上,把行业数据训练好、做好行业大模型,“完全可以走出中国道路”。他看好这一技术方向是因为他认为“中国行业数据最完整、全面”。

    同时他表示,发展行业大模型需要政府、企业、资本一起努力。他向贝壳财经记者表示,当前,国内数据的共享、流通程度仍有待加强,这对训练行业大模型产生了影响,“大家还在摸索”哪类赛道更有前景。

    2024中国算力大会披露的数据显示,全国算力总规模达246 EFLOPS。据刘韵洁观察,国产算力已具备一定规模,但利用率不算十分理想。

    “算力想要服务实体经济,得几方都说好。”刘韵洁认为,首先算力和网络提供方要说好,“(因为)它们通过这些服务获得了效益”。另外政府要说好,“(因为)政府解决了问题”。最后企业要说好,“(因为)企业通过使用算力、网络提升了自身效率”。

    他强调,只是“一方说好”的效果并不持久,这代表行业没有建立起算力生态。“不解决生态问题,大家也用不起来(算力)。”

    确定性网络是未来算力网基础技术之一,将节省60%-70%成本

    “大模型训练要求数据无损传输,对丢包、抖动和时延等网络指标提出要求。”刘韵洁说。他以国际数据标准为例解释称,丢包率达千分之五,传输效率将下降50%。

    他进一步解释道,这就像在利用整条100G带宽传输数据时,只有50G的带宽有用。“当下降到1%时,它的效率约等于0,这就没办法训练、推理。”

    网络不丢包需要采用RDMA(远程直接内存访问)协议。该技术使计算机能够直接访问远程计算机的内存,在内存层面进行数据传输而无需CPU频繁介入,减少数据传输过程中收发端的处理延迟及资源消耗。

    如何达到大模型训练、推理的数据传输标准?刘韵洁认为,确定性网络技术相对符合要求,他判断它是“将来算力网的一项基础技术”。刘韵洁透露,2022年他带领团队在35个城市开通了确定性网络,目前城市数量已增至39个,能做到端到端的时延、抖动小于50微秒,实现零丢包。

    在研发确定性网络技术过程中,刘韵洁认为最重要的技术突破是光电融合,它带来带宽利用率、电网成本能耗等方面的突破。

    其中在成本方面,他以某一自动驾驶企业为例解释称,该企业在全国4个地方20辆车每天产生的自动驾驶数据,先传回上海再传到贵阳训练,大概需要两条10G和一条1G的电路,一年花费一千万元左右。

    用不起怎么办?改用硬盘收集数据,在两个城市间运输,考虑数据丢失、硬盘损害等情况,一年需要190万元左右。而利用确定性网络,通过切片提供服务,“一年12万元就可以”。

    刘韵洁强调,这种程度的降本通过网络共享实现。他在主旨演讲中展示的数据显示:已在试验网上运行三个月以上,参数效率达95%以上,成本节省60%到70%。

    发挥GPU集群效果弥补国产算力短板

    算力网络可能成为未来国产算力超越国外算力的方向吗?刘韵洁表示,更准确的理解是“弥补短板”。他认为,短时间内,我们端点GPU仍无法与国外竞争。“可能我在单个方面比不过你,但发挥群体力量后有可能比得上。”他进一步强调,发挥GPU集群效果需要建设网络“把整个算力练起来”。

    他认为,大模型可以走协同训练、分布式训练的路子,“10万张卡在一个地方训练,电力会吃不消。”他透露,他的团队与中国科学院、国家超级计算无锡中心等机构联合推出的全国算力网络调度项目,能够达到分钟级解决排队问题的效果,多个异地训练达到单点训练80%的效率。“基本上,分布式训练、协同训练是可行的。”

    当谈及如何协调算力硬件与软件发展关系时,刘韵洁提出,软硬件要结合、融合发展。

    他表示,硬件生产消耗地球物理资源。“(每)消耗一点,资源就少一点。”而软件相对灵活,可以修改,对物理资源消耗较少,“这是一个很重要的社会发展理念”。另外,刘韵洁认为,软件开发消耗一定的人力资源,但应用AI后,开发效率有所加快。他继而提出,凡是能用软件代替的部分,尽量发展软件。

    “但软件不是万能的,必须满足算力所要求的硬件条件。”他认为,软件无法承担的部分要与硬件结合发展。

    如何打造共享的算力网络生态?刘韵洁建议,有关政府部门要把它协同、管理起来,企业和科研机构等要密切配合。“这是一个整体工程,但目前大家都是自己闷头干自己的。”

    新京报贝壳财经记者 韦英姿

    编辑 林子

    校对 刘军

刘韵洁
中国工程院院士
信息与网络专家