百度云计算事业部总经理刘炀:数据中心和人工智能

2016年9月29日花边娱乐210 次围观

9月27日,由云计算发展与政策论坛、数据中心联盟指导,开放数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC开放数据中心峰会”在京隆重召开。在上午的ODCC技术分享环节上,百度云计算事业部总经理刘炀,发表了题为“数据中心和人工智能”的演讲。以下是演讲全文:

尊敬的各位领导,各位嘉宾,各位朋友,大家上午好!

今天非常荣幸有机会来到2016开放数据中心峰会跟大家交流,我换了个题目,数据中心和人工智能,为什么换这个题目,大家知道在刚刚结束的百度世界大会上,百度CEO李彦宏先生发布了下一幕:人工智能的战略,在未来人工智能将成为百度最核心的技术竞争力,同时也会成为百度最重要的业务推动力。百度开放云也是将百度在多年积累的技术、资源、生态能力对外进行开放,百度开放云的最大特点也是云计算、大数据、人工智能三位一体。今天在开放数据中心的峰会上,因为人工智能如此重要,数据中心又是如此重要,所以我今天跟大家分享的是我们对数据中心和人工智能这良好者之间关系的一些看法,同时也分享一下百度在这个领域我们现在怎么思考、在做些什么。

媒体已经铺天盖地在讲人工智能,关于人工智能其实已经慢慢的至少在业界已经形成了一些共识。我们看到MIT发布的2016年十大技术突破上,其实这十大技术突破几乎每一项都跟大数据、人工智能有关系。其中百度也很荣幸,作为十大技术突破中唯一被提到的中国公司,我们在语音识别、语音合成等这些领域的突破也被载入了十大突破技术。大家知道任何一个领域要蓬勃发展之前一定有核心的技术突破,今天我们看到的人工智能上的技术突破,其实已经开始给我们带来了非常好的一个机遇点。不光是在学术界,在技术尖端领域内的共识,同时对产业界其实也有共识了,产业界的产业领袖们怎么看,像谷歌的CEO他就讲,我们将从移动第一转移到AI第一。比尔盖茨也讲,人工智能的梦想终于快要实现,Jeff Bezos也讲,这是人工智能的第一局,百度的李彦宏也在去年政协会议上提到,人工智能是当今世界技术的制高点。产业界其实已经在开始认可人工智能,已经在大规模投入人工智能这个领域。

人工智能需要什么,其中很重要一点,跟我们产业相关的一点是,人工智能对数据和计算的需求将大大增加。其中一个最近非常热的深度学习,深度学习是一个新的人工智能技术,也不能算太新,基本基于神经网络。为什么这几年这么热,其中一点跟传统的机器学习的方法有很大的不同,这里有一个坐标,横轴是数据量,纵轴是算法效果,当数据量增加到一定规模之后,效果的提高飞快下降,而深度学习的特点,边际效应递减到临界点,几乎可以认为数据越大这个效果越好。正是因为这样的数据,使得今天的人工智能今天的深度学习,对计算对数据的需求非常巨大。

这是百度内部的一些例子,我们可以看到实际上这些人工智能技术对这个资源的需求,比方说百度的语音识别,我每天处理的语音识别超过2.4亿次,需要上千台服务器,上千块GPU-FPGA,计算机视觉也是深度学习应用最广泛的领域,百度今年也是百亿级图片、千亿级非图片数据,10PB级别存储,上千块GPU。广告点击预估CTR,今天来讲也是千亿的样本、千亿特征,使用超过1万台服务器在进行模型训练。全网精准用户画像,每天数十PB数据量,万台服务器集群。机器学习、人工智能对数据资源的需求是非常巨大的,相信对在座的业界朋友也是一个非常好的消息。

除了刚才讲的这些尖端的技术,还有很重要的一点,像百度开放云这样的云计算厂商,今天将人工智能的能力进行服务化,对外推出之后,将大大降低人工智能在更多行业应用的门槛,这也将进一步促进更多的应用。比方说百度开放云,我们一方面提供非常强大的基础服务,使得任何一个厂商在基础服务的基础上构建自己的人工智能系统。同时我们开放天算智能大数据平台,像天像智能多媒体,也是将多媒体的能力,同时将很多的智能,比如语音识别等融入在里面。天工智能物联网,我们提供一个能力,能够帮助工业界数据收集、数据处理、数据智能控制等融为一体。云化的大数据的能力将会进一步促进人工智能在各行各业的应用。

AI的需求将是未来数据中心需求增长的主要驱动力。对我们业界来讲,理解AI将不再是说AI是一个高高在上的东西,而是跟我们数据中心的产业是息息相关的东西,AI的发展将促进我们整个产业的进一步发展。

除了AI对这个量有巨大需求之外,AI还会有什么需求,百度在这上来做了什么,AI对硬件的创新也提出了非常多的挑战,AI使用过程中,对计算模式、资源使用模式,跟过去将是不同的,百度也是在这个领域,在硬件创新的领域协调在做非常多的事情,来适应或者驱动AI的发展。简单举几个例子,大家知道AI很重要的一块是计算,而且这个计算非常多的是矩阵计算、迭代计算,跟过去的CPU的使用是很不一样的。百度也是在GPU、FPGA这两块投入非常大,比方说在GPU领域,人工智能很重要的一点很多时候需要很大的模型,需要GPU卡与卡之间的交互速度非常快,百度构建GPU的Box,业内首个64块GPU扩展服务器,GPU卡之间可以做到纳秒级的延时。我们在这方面做了非常多的工作,最终GPU服务器可以做到512TFlops峰值性能。另外一块是FPGA,传统意义上讲,更多是用在通信行业,但是因为它是可编程的模式,对它进行优化之后应用在人工智能上也是非常好的选择。百度也是世界上最早在这个领域进行投入进行研发的公司之一,应该说业内首次将FPGA用到AI领域。同时我们现在AI的规模已经到了万台集群的规模,我们也是首次跟芯片厂商进行合作定制开发FPGA的卡板和芯片。非常多的业务上已经在使用FPGA,FPGA已经不再是一个可能可以,而是说它肯定可以解决非常多的AI大数据上的需求。

存储,对存储的需求也非常高,百度在冰山存储系统上也做了非常多,今天用非常低的价格就可以做非常多的存储,同时非常节能,目前1个U的高密度存储可以做到180TB。还有整机柜,这一块不详细介绍了,刚才炳华主席也介绍到,整个开放数据中心也是一开始是以天蝎工作组为起点的。北极就是天蝎,是百度内部的叫法,对TCO的节省、能效提升等各方面都有非常好的效果。所有这些硬件的提升,是适应了百度内部的对AI的需求,我们也相信,不光是百度,相信整个业界在未来的五年、十年中,越来越多的硬件创新将是围绕着AI的需求进行。

AI的创新也不仅仅是底层的硬件设计,从数据中心到上层软件,到最上层的分布式系统等等都是相关的,百度在整个软硬件栈里做了非常多的工作。我们一方面看到AI将是业务来源非常主要的一块,我们知道这叫开源,开源有更多的生意做,有更多的需求才有更多的创新、更多的生产。另外一方面,跑不掉的节流,节流核心讲是提升整个的数据中心的运营效率。随着数据中心越来越大,越来越大的数据中心本身其实也产生越来越多的数据。本身产生越来越多的数据,AI技术帮助数据中心提升运营效率就成为了一个可行的东西,不光是可行,事实上最近几年在整个业界我们有非常多的事情,我们在用AI的能力在提升整个数据中心的运营效果。

数据中心目标很简单,规模更大,需要能耗更低,需要稳定性更强,需要运营效率更高,这些目标是很清楚的。百度在智能数据中心上在做些什么,还是非常简单的思路。第一方面,随着数据中心的设备,我们会对它进行越来越多的监控、数据采集,这些数据其实又是个大数据,使用百度我们自己的天工、天算以及百度智能物联网、智能大数据的平台,这些平台能帮我们收集这些数据、处理这些数据,最终用这些数据来指导我们整个智能的运营、智能的管理,最终达到整个数据中心智能化运营。举几个例子,第一个是网络的智能调度,一方面我们会收集所有网络上的信息,这些数据将被收集进行存储,同时历史数据会取非常多的模型,同时实时的数据我们也会采集,实时的数据和历史数据合在一起,我们会对接下来几分钟甚至十几秒钟区间的流量进行预测,应用到各个领域,比方攻击检测。另外一方面也会应用在削峰填谷,还一个是可以进行异常识别,有时候一个网络抖动,如果没有好的方法可能很难知道,但是如果有历史数据,有这些预测,我们可以更快的进行异常识别。另外一个例子是电,电是数据中心最重要的成本之一,历史上电的处理其实是非常简单的,如果对Rack上的电放多了,可能机器放多了,减少一台,过去基本上根据那些经验上决定一个Rack上放多少机架。百度现在我们在做什么,我们在收集所有Rack上电的信息,也是经过我们的大数据处理、人工智能处理,我们进行未来的预测。最终我们对上层的软件系统需要进行打通的,上层的软件系统知道每台机器上现在跑些什么,每一个任务,它是一个CPU的任务还是I/O的任务,任务对电的消耗不一样。这些数据合在一起,跟未来的预测合在一起,事实上我们可以进行调度。一方面进行硬件层面的电的调度,更重要的是软件层进行任务的调度。当我们发现一个Rack有可能超电的时候,上层的软件可以将一些任务调走,这样也可以达到每一个Rack之间用电的平衡,也是一个削峰错谷,使机房容量提升17%以上。再一个例子是散热,散热是跟数据中心能耗非常相关的一条,散热做好了,很多问题也就解决了。PUE直接跟散热是相关的。百度的散热也做得非常好,刚才讲PUE已经达到1.15,百度很荣幸,在绿色数据中心的颁奖中也获得了两项奖项。后面的技术是什么,传统意义上可能是依靠专家,专家感知这个地方的热太高了,可能要开冷空调等等。今天是依靠监控,同时进行预测,根据任务时间点,根据外部的空气、天气等,所有这些东西去预测。最终进行学习,最后做到联动调用。我们还有非常多其他的创新也在进行。

人工智能跟数据中心的紧密结合,一方面AI需求是未来数据中心需求增长的主要驱动力,作为业界的朋友,你们需要更多的去了解AI的应用,了解AI需求的来源,只有这样,整个设备的生产也好,创新也好,能够跟应用需求更好的结合。另外一方面,AI技术可以帮助数据中心提升运营效率。今天的数据中心运营越来越不像是一个简单的维保,像是整个大系统的运营,AI的发展和数据中心的发展是紧密相关的。百度作为人工智能为最核心竞争力、为最核心战略的一个公司,我们也希望在未来和业界朋友合作,共同促进AI和数据中心的创新和发展。

我今天的分享就到这里,谢谢大家。

继续阅读