国家“千人计划”专家、百度深度学习研究院(IDL) 常务副院长余凯4月4日14:00曾在清华大学FIT楼多功能厅做主题为“Deep Learning Unfolds Big Data Era”的学术报告。据悉,2014年4月24日下午百度第四届技术开放日中,李彦宏将首次对外诠释大数据驱动商业创新战略;会上也将首次揭秘“百度大脑计划”推动大数据价值的深度挖掘。仍然很纳闷,到底百度为啥跟4这么有缘?

据报道,这次百度“深度技术大讲堂”在清华大学的活动吸引了中国科学院张钹院士、机器学习专家美国哥伦比亚大学Tony Jebara教授、清华大学马少平教授以及中科院计算所张云泉研究员等相关人士,报告内容的含金量自然不在话下。

enter image description here

深度学习为何受到业界如此聚焦?作为机器学习研究中的一个新的领域,深度学习的动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是最接近人脑的复杂模型,也是目前向人工智能走得最近的方法。

作为机器学习的重要分支,深度学习技术近年席卷产业界和学术界。Facebook、Google、IBM、苹果、微软、百度等均在此方面做了多种尝试,百度还在美国硅谷特别成立了首家研究院——百度深度学习研究院(Idl),招揽全球机器学习领域的青年才俊。余凯本人就是2011年到百度面试的。

言归正传,今天继续搁置10天的讲座笔记工作,谈谈我对余凯4月4日讲座的感想。当然,以下笔记主要是我个人的演绎与体会,还从余凯本人去年发表的一篇《深度学习,推进人工智能的梦想》中摘引了大量文字。

余凯2012年4月初回到国内加盟百度,迄今只有两年时间。在讲座中他着重阐释了2006年到现在深度学习的发展与AI的关系,以及百度为何要大量投入深度学习领域。余凯认为机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。

2000年以来互联网的高速发展,对大数据的智能化分析和预测提出了巨大需求,浅层学习模型在互联网应用上获得了巨大成功。最成功的应用包括搜索广告系统(比如Google的AdWords、百度的凤巢系统)的广告点击率CTR预估、网页搜索排序(例如Yahoo!和微软的搜索引擎)、垃圾邮件过滤系统、基于内容的推荐系统等。

2006年,加拿大多伦多大学教授、机器学习领域泰斗——Geoffrey Hinton和他的学生Ruslan Salakhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。Hinton提出的神经网络深度学习算法,使得至少具有7层的神经网络的训练成为可能,这就是所谓的DNN。DNN正是由于能够比较好地模拟人脑神经元多层深度传递的过程,因而它在解决一些复杂问题的时候有着非常明显的突破性的表现。尤其是图形计算器(GPU)能力的突飞猛进使得DNN令人生畏的计算复杂度不再成为问题,所以一些走得比较快的语音厂商已经急不可待将DNN作为其提高语音服务质量的杀手锏了。

enter image description here

在这里,余凯提到一个重要的理念:Turn data into Value。李彦宏实际上是个技术达人,还曾经参加过一次ACM学术会议。特别有趣的是,有关OCR(光学自动识别)的一篇论文是李彦宏曾发表过的唯一一篇重要学术文章。现在OCR技术已用于百度街景,可识别店铺、商家等。这也是李彦宏对深度学习情有独钟的原因之一。当然百度也在语音识别与理解上有竞争优势,这方面能与百度匹敌的只有科大讯飞公司。

2012年4月10日,Facebook宣布以10亿美元收购只有十几名员工的在线照片共享服务商Instagram,让移动图片应用大热。其实Deep Learning从2006年就开始发展,但由于行业内热点转换很快,很多人没有坚持到深度学习开花结果的这一天。

2011年以来,微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域十多年来最大的突破性进展。2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。一年多就让错误率降低一半的成果当时震惊世界。在这一年,DNN还被应用于制药公司的Druge Activity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。今天Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是因为它们都看到了在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。

在机器学习泰斗Geoffrey Hinton教授的引导下,他的两个学生Alex Krizhevsky和Ilya Sutskever开发了一种能够让计算机准确识别物体的系统。谷歌曾经为这个三人团队提供了60万美元的资金来帮助他们继续进行研究。2013年3月,谷歌以5000万美元的价格收购了他们3人于2012年开创的公司DNNresearch。

除谷歌在深度学习领域战略投资外,Facebook也成立了AI实验室。百度则于2013年成立了深度学习研究院,李彦宏亲自担任院长。

百度的广告深度学习系统2013年上线,而百度处理的数据量非常庞大,例如语音的训练样本达到100亿级别,广告的CTR点击率数据样本则达到百亿以上。对于互联网公司而言,如何在工程上利用大规模的并行计算平台来实现海量数据训练,是各家公司从事深度学习技术研发首先要解决的问题。与Google采用普通服务器不同,百度的多GPU并行计算平台,克服了传统SGD训练的不能并行的技术难题,神经网络的训练已经可以在海量语料上并行展开。可以预期,未来随着海量数据训练的DNN技术的发展,语音图像系统的识别率还会持续提升。

最重要的是,GPU带来的计算能力提升和更多的训练数据。百度在2012年底将深度学习技术成功应用于自然图像OCR识别和人脸识别等问题,并推出相应的桌面和移动搜索产品,2013年,深度学习模型被成功应用于一般图片的识别和理解。从百度的经验来看,深度学习应用于图像识别不但大大提升了准确性,而且避免了人工特征抽取的时间消耗,从而大大提高了在线计算效率。可以很有把握地说,从现在开始,深度学习将取代“人工特征+机器学习”的方法而逐渐成为主流图像识别方法。

2012年12月,前总理温家宝到北京中关村百度公司考察时,就试用了百度的手机语音搜索。百度未来还可实现实时翻译。此外,百度魔图、涂书笔记、图片自动配诗等也是深度学习的最新应用。百度在用GPU提升计算效率、处理海量训练数据、OCR识别、图像识别、人脸识别、语音识别等方面取得了巨大提升,到目前为止,几乎所有的百度核心搜索和广告产品,都全流量上线了深度学习技术。

语音识别方面,百度的表现也可圈可点。2012年底百度上线了第一款基于DNN的语音搜索系统,成为最早采用DNN技术进行商业语音服务的公司之一;2013年百度推出的百度手机输入法Android平台3.5版,中文语音识别率突破90%,这样的成绩在业界尚属第一次。

深度学习技术对百度影响深远。百度贴吧具有极强的开放性,所以贴吧里会存在部分垃圾信息,百度基于深度学习色情图像识别率超过传统方法100%,在清除垃圾信息方面更给力,为给用户创造了一个良好的使用环境;深度学习还让百度在在语音识别领域的错误率相对降低了20-30%;全流量上线广告Ctr预估,显著提升广告的精准度。

百度能够在深度学习方面取得现有的成绩,原因之一就是百度在大数据等方面具有天然优势。作为全球最大中文搜索引擎的百度,每天响应网民60亿次的搜索请求,因此能够得到海量、真实的大数据,因此才能开展深度学习研究,没有足够的数据样本,深度学习将毫无意义。

虽然深度学习取得了惊人的突破,但余凯认为,深度学习还远不是AI,只是towards AI。有人认为数据大了就解决所有问题,但深度学习建模过程中灵感仍然很重要,例如调参数仍然是个艺术。

而且,人脑的计算能耗比仍然是世界上最快的超级计算机天河二号的200万倍。深度学习不仅要运用高性能计算,而且需要对大脑的认知机理非常了解。即使是深度神经网络,对问题也要非常了解,先验知识非常重要。

enter image description here

深度学习带来了机器学习的一个新浪潮,受到从学术界到工业界的广泛重视,也导致了“大数据+深度模型”时代的来临。在应用方面,深度学习使得语音图像的智能识别和理解取得惊人进展,从而推动人工智能和人机交互大踏步前进。同时,pCTR这样的复杂机器学习任务也得到显著提升。余凯相信,如果我们能在理论、建模和工程方面,突破深度学习技术面临的一系列难题,人工智能的梦想将不再遥远。

(欢迎关注@杨静Lillian,微信号:lillian_yang_1111)