首页  >  媒体动态  >  媒体动态详情

关于AI,沈向洋院士最新发声!

2024-11-22   中国电子报   阅读量:8

    11月22日,美国国家工程院外籍院士、粤港澳大湾区数字经济研究院创院理事长沈向洋在2024IDEA大会上分享了其对人工智能“三件套”(算力、算法、数据)的最新思考。他表示,在技术大爆发时期开展创新,对技术的深度理解尤为重要。站在商业的视角,新技术快速冲入市场,则意味着技术需要理解需求。技术要在持续不断的反馈和创新中,与市场完成匹配。

    从“摩尔定律”到“黄氏定律”:算力需求持续增长

    整个计算行业过去四五十年的发展,最重要的一件事情是算力的不断提升。根据英特尔创始人之一戈登·摩尔(Gordon Moor)提出的摩尔定律,当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。或者换句话,性能每2年翻一倍,价格下降一半。

    然而过去这十几年随着人工智能的蓬勃发展,特别是深度学习的发展,对算力的需求更加提高。英伟达提出了以其创始人黄仁勋的名字命名的“黄氏定律”,认为GPU(图形处理器)将推动AI性能实现逐年翻倍。

    “从以前的百亿级,到现在的千亿级、万亿级,大模型参数规模越来越大,对训练的要求越来越高。要训练这样的模型,数据量要增长,性能要随之提升,对算力的需求也会呈现出平方级的增长。所以我经常讲一句话,那就是‘讲卡伤感情,没卡没感情’。”沈向洋感慨说道。

    同时,沈向洋评论称,英伟达是过去十几年,IT行业、人工智能行业最了不起、最成功的一家公司之一,它硬生生把自己从一家做硬件、芯片的乙方公司做成了甲方。“大家对英伟达的未来充满信心,最重要的是对算力的需求。这也解释了为什么过去十年英伟达的市值涨了300倍。”

    从GPT到o1:人工智能发生范式转移

    沈向洋表示,从2017年开始Transformer架构(一种基于注意力机制的深度学习模型架构)出来,人工智能、深度学习、大模型基本上是沿着Transformer这条线“堆”数据、“堆”算力。GPT4推出之后,尽管GPT5一直没有出来,但OpenAI仍然推出了一些新技术突破的东西,包括多模态GPT-4o。最新的o1(OpenAI最新发布的大语言模型)推理学习能力展现出的人工智能的范式转移非常值得我们认真思考。

    GPT系列做的事情是通过预训练来预测“下一个Token(吞吐量)”。技术背景是把所有的数据进行“聪明的”压缩,它可以很快给你答案。只要问一句话就能得到一个结果。而新的范式变革是增强学习,即可以自行改善的“Learning(学习)”,在给出答案之前还有一个后训练、后推理的过程。

    实际上,增强学习并不是一个新鲜事物。AlphaGo下围棋就是用这种增强学习的方法打败人类世界冠军的。不过新的增强学习“打法”更为通用。以前做一个系统只能解决一个问题,比如下围棋或者做其他工作。今天o1不仅可以做数据、做编程,还可以做物理、做化学等等。“我觉得接下来这几年,算法沿着SRL(强化学习)这条道路走下去,一定会有令人惊艳的全新突破。”沈向洋表示。

    从海量到高质量数据短缺:未来大模型需要合成数据

    公开数据显示,GPT3的训练用了2T(即2万亿Token)的数据。GPT4大概用了20T(即20万亿Token)的数据,几乎相当于今天能找到的所有清洗过的互联网数据。GPT5要比GPT4有长足的进步,预测数据量大概会达到200T(即200万亿Token)的规模。

    为了进一步阐释大模型训练所需的数据量规模,沈向洋列举了几个例子:1万亿数据相当于500万本书,或者20万张高清照片,亦或是500万篇论文。一个人从小学、中学、大学到念完大学的时候,真正学到的东西相当于1000本,也仅仅是0.00018T的数据。人类历史上所有的书加起来大概也只有21亿Token的数据。

    “现在互联网上已经找不到那么多高质量的数据了,人工智能向前发展要造数据、合成数据,这有可能带来大模型创业的下一个百亿美金问题,那就是怎么来合成数据。”沈向洋表示。GPT系列模型的训练依靠的是互联网语料数据,比如文本、图片、音频、视频等多模态数据,o1的训练则需要强逻辑性的数据,很多数据是网上没有的,需要做一些优质的合成数据。

    “我们不能盲目的造数据,而是要有理有据,有逻辑关系的存在。要先采集真实数据,建一个语境图谱,然后再合成数据,把这些合成数据放进大模型继续做预训练和推理。”沈向洋介绍说道。据他透露,IDEA DataMaker(数据合成平台)知识驱动大模型数据合成技术已经可以将模型推理准确率提升25.4%以上,平均节约成本达85.7%。同时,IDEA大模型合成数据加密训练技术可以打破数据孤岛,助力私域数据的安全流通。相较于基础模型,该技术可将大模型专业推理能力提升12.8%~24.1%,加密接近无损甚至少量提升。

    作者丨宋婧

    编辑丨赵晨

    美编丨马利亚

    监制丨连晓东

沈向洋
英国皇家工程院外籍院士
美国国家工程院外籍院士