中国工程院院士高文:数据也是一种生产材料

2019年11月19日  山东新闻网

  11月19日,中国工程院院士,新一代人工智能产业技术创新战略联盟理事长高文在2019世界人工智能融合发展大会的开幕式暨主论坛上作出了主旨演讲。高文在会上讲到,“数字视网膜有三个特征,全局统一的时空ID,包括高效的视频编码,高效的特征编码,联合优化等多层次的视网膜表达的特征”。他表示,愿意将数字视网膜等技术贡献给山东省智能交通的实验。

  以下是主旨演讲全文:

  各位专家、各位同行,各位朋友,智能交通里,其实之所以叫智能,就是可以通过一些技术手段,把原来效率不太高的知道哪个路面上车多,哪个路面上车少,以前信号控制系统做了很多类似工作,但是那些系统大部分是通过地面的线圈,也有一些摄像头采集到的信息作为输入。今天我要说的,希望和大家分享的就是利用最现代的一些传感和计算系统合在一起,怎样去把智能交通这件事做好,讲三个问题:什么叫数字视网膜,这是为了解决现有,利用云视觉计算来做系统当中的瓶颈问题,所以现在提出叫数字视网膜。第二,数字视网膜在智能交通里怎么用。第三个是总结。时间关系,很多细的东西不展开,只说宏观的东西。

  首先看看什么叫数字视网膜,数字视网膜本身这个东西,现在有很大的规模的系统,这个规模系统里要想用视频把里面看到的东西,能够很好地协调起来,要解决三个问题,一个是为什么,一个是怎么做,一个是具体的概念是什么。

  首先,从整体来讲,数字视网膜也好,图像处理也好,视频处理也好,是经过了非常长时间的演化的路径,比如最早先的视频处理,那时候还没有数字,是模拟的第一台的照相机,大概是在19世纪中前期被发明出来了,后来慢慢从伦敦开始,利用这些图像与传输的图像内容,一直到19世纪中叶左右,有了计算机以后,开始把模拟图像变成数字图像,数字图像包括进行处理,进行传输,一直到今天,从处理传输用的领域,最开始是卫星图像,后来是医学图像,今天我们几乎涵盖所有的可以用图像处理的领域。以前处理的能力不强的时候,摄像头或者说传感器和后面的处理器都是挨的很近的,但是自从现在摄像头便宜了,还有云计算以后,这两个东西就拉的很开了,比如通常把摄像头叫做摄像机网络,它是一个非常大的网,可能有几千个,几十万个摄像头连成一个网。后面的现在叫城市大脑,原来叫云存储,其实一个城市有若干个分存储器,有一个总的中心,最后所有的比如要进行智能交通的决策分析,都要在总的地方来做。但是数据是从最末端的每个摄像头汇总到分中心,最后到指挥中心。

  数据是怎么过来的?以前的模式就是摄像头拍上的东西,送回来,当然直接送需要的带宽太宽,费用太高,怎么办呢,编码器压缩一下送过来,送到分中心就存在那,送到总中心,要把它解开,把里面有用的东西特征提取出来,然后进行分析和识别,所以有这样的过程。它的整个流程就是摄像头上面有编码器,然后到了中心,通过一个解码器解开,特征分析,然后进行解析。后面特征提取和分析识别这块,人工智能这个热了以后,以前都是用别的手工特征和基于手工特征的分析识别的系统来做,现在基本都是用深度神经网络来做,有了这东西之后,从数理上只要有足够的算力是没有问题的,有了这些,绝大多数城市大脑架构就变成这样的架构了,中间的这块云,从最底层的比如存储到中间有个数据交换的平台,再上面是一个软件平台,就是算法平台,算法平台再上面就是服务平台,基本是这样分层组织起来。存储直接连接的就是这些前端传感器的东西,比如摄像头进来的东西。现在我们提出的问题就是这样一个系统效率行不行?效率是不行的,主要什么原因呢?就是现在的摄像头只管拍下来压缩以后,送到云这边再进行解码,再进行特征提取再进行分析这种做法,要做到实时是很难的。为什么公安、交通等等,摄像机网络用的东西,实时是很难用起来的。现在系统不停升级,加了很多特殊的智能摄像头,摄像头本身比如拍车牌,拍人脸,直接摄像头就把这个识别出来了,把结果再往回送。所以是为了想弥补刚才说的大多数摄像头智能编码传输这件事。但是这种架构对不对?其实是并不对的。因为这样做的结果,解决了小问题,但是带来更多的大问题。所以现在像这种大规模的摄像机网络,数据非常大,但是它不是大数据。数据大不等于大数据,这些摄像头拍下来的东西,很难形成对整个城市的规划改进等等有帮助的数据,因为数据基本存的最长三个月,有的可能存两个星期,就被覆盖掉了,数据就扔了,这个是非常浪潮的一件事。能不能有没有解决?当然我们会找到一些解决办法。

  第二个问题,因为数据量实在太大,当你有足够的数据,你就有了足够的财富,数据也是一种生产资料,有了数据,就有了财富。但是城市监控的视频数据例外,因为在现有的体系下,很难把价值发挥出来。现在城市里的数据85%-90%都是监控视频数据,但是真正对整个城市规划,城市管理做出贡献的,这部分数据基本发挥不了作用。所以超大数据量,但是有一个超低价值密度,这样一个数据。这个数据怎么办?要想办法转换,让它更有价值。怎么让它更有价值呢?或者产生刚才说的监控视频的数据,不是大数据,没有价值这件事,怎么去解决?或者原因是什么?原因就是刚才说的架构的问题,因为原来的架构,绝大多数99%的摄像头只是获取,编码,只做这件事,对后面数据能够发挥出作用来,几乎是贡献很小。可能有贡献,就是摄像头识别出这是车牌,是人,那个可能对后面的数据,对后面大数据可能会有些贡献,但是这个比例太低了。我们就要想法用一些可以在摄像头上,把有用的数据抽取出来,送到云里,将来在云里可以处理,可以存储,也可以长期保存,作为一个富有价值的大数据。

  要想做到这一点,首先就看这边的架构和我们想达到目的,到底有没有矛盾,矛盾就是现在摄像头干的活太少了,要么太多了,要么太少了,不做特征提取的摄像头,99%的那些摄像头,编码传输存储,几乎是对形成大数据没做贡献,如果直接识别出来了,识别人脸、车牌号是多少,这个有点贡献,但是贡献量并不大。为什么会形成这个呢?因为现在从监控视频的使用来讲,有两种用法,一种用法是人来看,发生一个什么案件,比如有小偷,或者有人抢劫了,就调上来一批干警来,去调出多少视频来,靠人看,最后定位说哪个人是怎样的。这都是事后的,靠人看的系统,这叫人工监控。另外一部分就是机器分析,比如里面车牌识别出来了,有多少个人在里面,人在里面干嘛,是在跑啊还是什么,像这种行为识别出来,那是机器分析。现在机器分析一般做演示挺好,但是常规的做机器分析,前端不支持的话,完全靠云把数据解开再分析,需要的算力实在太大,一般支撑不了。

  所以为了解决这个问题,我们看看生物界这件事是怎么处理的,就是我们经常可以他山之石可以攻玉,人或者是生物界,我们都是有眼睛的,我们这个眼睛也是经过了几千万年,甚至上亿年计划到今天这样,但是脊椎动物眼睛的动作原理和现在所谓的计算机视觉的工作原理实际不一样,我们眼睛效率非常高,有没有办法让计算机识别学一学生物系统的眼睛,我们就考察脊椎动物眼睛是怎样的进化路径,很容易看到,眼睛获取光学信号是通过视网膜来获取,视网膜里有两种比较关键的细胞,感光细胞和锥状细胞,这两种细胞加起来1.26亿,这些细胞就是我们平时看的东西,都是通过这些细胞把细胞收集来,专传到大脑去。如果从眼睛视网膜的细胞素和最后传到大脑里,脑工作的连接的最中断的连接数比较起来,你会发现这里有个差值,细胞数是后面脑区接收的数量的120多倍,准确地说126:1也就是说,视网膜上有126个细胞,最后汇总到连接到脑的一个神经元上,什么意思呢?就是人的视觉系统,在信息往后传的时候,当然它不是一层传过去的,是经过若干层,每传一层信息就进行缩减,再传一层又进行缩减,一直传到脑神经的连接地方,每126个细胞相当于缩减成一个神经元了,这就需要信息缩减功能。这个信息缩减功能,目前我们的摄像头没有这个功能,当我们知道这个事以后,就给我们一个很好的启发,要看脊椎动物生物界的视网膜的功能,设计的非常巧妙,这个不知道是上帝设计的还是大自然自然选择造成的,里面结构的安排非常巧妙,这种结构的安排是对整个视觉认知非常有帮助的。反过来,看城市大脑的安排,云的这种安排,比较像病态的人的视觉系统,人的神经系统,比如有的孩子会得自闭症,有的孩子会得癫痫症,这两种病都是属于神经发育过程中出了问题了,正常的孩子长大不会自闭,也不会癫痫,从神经系统解释,这病的根源是什么?比如自闭症就是人一生下来的时候末端神经和脑端的神经几乎是全连接,他的神经系统所有的连接都是差不多的,都连着的。这个时候婴儿就开始学习,通过周边的刺激,最后他会看东西,通过语言的交互,他会听东西,或者说东西,这个学习的过程,实际是把全连接的网络进行了增强和剪裁,有些连接变得越来越粗,有些连接慢慢就萎缩掉,变成原来是一个全连接的,都是一样全通的网,变成有的粗有的细,衰减掉的叫剪裁了,越来越粗的就变成增强了。如果一个正常的孩子,该衰减的衰减,该增强的增强,最后他就正常了。所以为什么小孩到了12岁以后,再学外语就比较难了,不像五六岁的孩子,他的外语说的很地道,因为到12岁,你的神经系统已经固定下来,再后面学习语言不是靠神经的增强和剪裁来做的,是通过一些补偿的办法来做的,所以效率就会低的多。如果这个小孩在学习的时候,发育的时候如果连接没有进行经常的剪裁,还是全连接,这个孩子上大以后就会犯自闭症。你发现自闭症的孩子,他的注意力,你是吸引不走的,他看到一件事,钻进去就出不来了,因为这个全连接是完全随机的注意一个东西,一旦进去以后,就会注意,正常的孩子,有些增强,有些剪裁,碰到不刺激的,就从不重要的事跳到重要的事去了,所以正常的孩子,别人一说他马上注意力就会转移,或者跟着老师的思路走,但是自闭症不会,因为他的连接在,他的连接多种多样,连接的太细,不剪裁,那是自闭症。还有一种情况,有的小孩容易得癫痫,癫痫是剪裁过度了,就是来个一般的刺激,他就会形成一个很大的放大,反应翻转了,就是我们讲的“过去了”。整个的神经系统不进行汇总,不进行剪裁,有的增强,有的缩小,很容易自闭症。如果过度剪裁,让有些连接变得特点粗壮,就容易癫痫。现在我们的城市大脑系统,如果那个摄像头上来的东西,没有进行任何的信息的提取,就是把原来的东西都连起来,就是每个摄像头在系统里是完全同等重要,这是一个“自闭症系统”。如果有的摄像头在这里特别重要,比如有的摄像头能识别出来人在干什么,是什么,或者能识别出来车牌号,这就是那些连接太粗壮了,这种系统很容易变成“癫痫症系统”。其实现有的我们看城市大脑系统,最容易犯的两种病,就是“自闭症”或者“癫痫症”,怎么改,就是我们要有一个系统,这个系统要像人的视觉系统一样,把信息汇总以后,再往上送,就是缩减以后再往上送。为做这件事,去年我一个北大的还有阿里巴巴的同志,我们三个人一起发了一篇文章,在中国科学上,就叫《数字视网膜智慧城市系统演进的关键环节》如果用了数字视网膜,这件事就可以解决了,数字视网膜有八个最主要的特性,我汇总成三个,叫做本质特征,第一个特征叫做全局统一的时空ID,每个摄像头要有一个全局统一的时空的ID,地理位置是全局统一。每个摄像头只要是送信息回来,马上就知道这是全局统一几点几分的时间发生的事,发生的物理地点是在哪里。第二个特征,就是视网膜本身要有高效视频编码的能力,高效特征编码的能力和联合优化的能力。高效视频编码比如现在有很多视频编码的标准,像AVS标准,MPEG4等等,有很多这样的标准,这些高效视频编码要有。特征编码,现在这个标准MPEG也有,有CDVS标准,CDVA标准,还有如果在一个码流里,同时要监控视频编码和特征编码的话,要有一个办法让它们可以联合优化,要有这三个基本特征。

  第三个本质特征,就是模型可更新,注意可调节,软件可定义,这也是三个不同的要求,就是模型可更新,特征提取的模型,我们现在都是用神经网络模型,神经网络模型随着时间推移可能会有新的算法出来,你可能要把模型升级了,我们要求数字视网膜是模型可更新的,换句话说,每个摄像头上的算法可以升级的,这就好了,因为以前的摄像头,芯片一做以后,算法升级不了,做死了就那样。但是现在的数字视网膜芯片可以做到模型可更新,注意可调节,其实那个摄像头没有办法注意,它的注意就是可以后台控制它。同一个画面里的东西,优先级每个地方都是不一样的,实际我们可以赋予它感兴趣区域这样一个功能,让它有注意功能,就是有些区域特别重要,这个区域的信息尽量给我保留,背景的区域不是很重要的,压的狠一点,我们不在乎等等。软件可定义,里面有些可以通过软件升级的东西来软件可定义。

  这种新的数字视网膜实际有三个流,不像传统的摄像头就是一个流,就是视频压缩流,或者有一个识别结果流,我们这个是三个流,包括视频编码流,特征编码流,模型编码流。当时模型不是每个视频都在变,但是可以随时变,有了就可以来升级。当然这三个流是有分工的,有的是在前端可以实时控制调节,有的是通过云段反馈出来进行调节和控制的。这就是数字视网膜。因为数字视网膜讲清楚了,它到底怎么用,这就很容易说了,就是主要通过脑眼合一的方式,希望将来终端来的信息,经过数字视网膜的处理,送到云端的,全都是用这三个流进来,有的流能看,有的流可以机器自动去处理,而且是可以升级的,有注意的。当然做这个流,现在在深圳我们专门造了一个,叫做深圳的鹏程云脑,做数字交通的事,为了做这个事,大规模的训练,在深圳有一个云脑,现在已经有一个100P的算力,到明年6月份,会升级到100P的算力,做数据的训练,这是现在的算力的情况。上面有些开源的东西,包括建立开源生态,上面有一些势能的技术,里面视频编码标准是其中的一块重要的势能技术,视频编码最新的已经有些芯片可以采用,海思已经出了第一款最新的视频解码芯片。现在联盟也在做一些基于刚才说的标准上面分装的大的应用标准,这个也都在按部就班往前推进。关于模型,甚至模型的渗透压缩,也正在进行标准化的工作,现在也已经推进的比较顺利。而且刚才我说的数字视网膜芯片,第一款芯片已经在路上,很快就会发布,这个芯片大小很小,就象一块钱硬币大小的芯片,把刚才说的三个本质特征,八个功能全都包含在里面,这个芯片现在已经开始进行开发,将来可能会直接进入各种智能交通的系统里,会支撑数字视网膜的应用,而且我们现在也通过软件开源的包括做数字视网膜的生态,现在也通过产业联盟在推进这件事。

  最后总结一下,数字视网膜有三个特征,全局统一的时空ID,包括高效的视频编码,高效的特征编码,联合优化等多层次的视网膜表达的特征。另外就是模型可更新,注意可调节,软件可定义的联合特征,最后有些势能技术已经做的非常不错,这些势能技术加在一起,加上硬件和云的工作,就可以给智能交通提供一些优化的解决方面。山东省希望在这方面做一些有益的尝试,我们也愿意把这些技术贡献给山东省智能交通的实验,市长也说有20几公里的路做各种各样的实验,也希望我们在座的有些厂家如果愿意参与这个实验,非常愿意一起来合作,谢谢大家。

  (曹汉、朱诗雨整理)

>>原文链接
地址:北京市西城区冰窖口胡同2号   邮政信箱:北京8068信箱   邮编:100088    关于我们
电话:010-59300004   邮箱:ysg@ckcest.cn
Copyright © 2012 CKCEST ICP备案号:京ICP备14021735号-2