2013年1月12日,第34期百度技术沙龙在北京成功举行。在《机器学习之多媒体方向的思考》的主题下,百度多媒体部副总监余凯分享了百度深度学习的进展以及在语音图像中的应用。
作为人工智能领域的知名专家,余凯是国际会议ICML和NIPS的领域主席,也是众多其他顶级国际会议程序委员会的成员、国际顶级杂志的专家评委,拥有几十项专利和专利申请,对深度学习有很深的理解。
图片 1 人工智能领域知名专家、百度多媒体部副总监余凯
机器学习与深度学习
机器学习(Machine Learning)是人工智能的核心,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。深度学习(Deep Learing)是机器学习研究中的一个新的领域,它被引入到机器学习中使机器学习更接近于其原始的目标——人工智能,因此,近年来非常火爆。
深度学习根源于传统的“神经网络”。“神经网络”可以追溯到20世纪五十年代后期。当时,弗兰克·罗森布拉特试图建立一种类似机械大脑的感知器,可以“感知,识别,记忆,像人的思维做出响应的机器”。在一定范围内这个系统能够识别一些基本的形状,如三角形和正方形。80年代后,神经网络一度发展,但成效不是太大。到2006年,神经网络才在“深度学习”的创新下取得突破进展。
余凯介绍了深度学习的原理。深度学习是从对人类神经的仿生上进化而来,如人类的视觉皮层也是包含多个分层的。深度学习的重要创新在于建立模型逐步学习,试图确定下来低层次的分类(如字母),然后再尝试学习更高级别的分类(如词)。深度学习的主要原理是对特征空间按照层次分层建模,进行深入挖掘图像和语音特征,由此可以大幅提升识别率。
图片 2 Deep Learning由仿生人类视觉皮层的多个分层产生
百度的深度学习进展与成果
余凯介绍,百度在2012年夏季开展了深度学习方面的工作,并很快在语音识别和图像识别方向取得了巨大的成功,同时,在OCR(光学字符识别)、NLP(自然语言处理)、文本检索等方向也取得了很大的进展。
图片 3 百度识图智能认出“李幼斌”
如在人脸识别方面,最困难的是识别照片中的人是谁或者通过照片寻找相似的人。百度在深度学习的基础上,借鉴认知学中的一些概念与方法,探索出了独特的相似度量学习方法来寻找图像的相似性和关联,能够做到举一反三,现在已经应用在百度云相册(http://xiangce.baidu.com/)的人脸识别和百度识图(http://shitu.baidu.com/)的人脸相似搜索中。
图片 4 百度语音助手应用DNN技术识别率超SIRI
如在语音识别方面,百度将深度神经网络(DNN)技术应用于语音模型训练中。百度语音助手(http://shouji.baidu.com/voiceassistant/)“语音指令、语音搜索、语音问答”等功能,都是通过深度神经网络技术(DNN)实现。余凯透露,目前,在内部评测中,百度的语音识别系统的准确率与SIRI和同类应用相比,处于业界领先地位。
深度学习,促进人工智能技术进步
正如2012年12月29日《纽约时报》的头版报道一样(http://article.yeeyan.org/view/371738/341235),“深度学习让机器执行人类的活动,如看、听和思考,可以模式识别提供了可能性,促进了人工智能技术的进步。”百度技术沙龙也让众多的参会者了解到了深度学习这一人工智能前沿技术在中国的发展与应用。
一位参会者表示,“每次参加百度技术沙龙的收获都很大,这次更加明显。我非常惊讶,百度在人工智能领域的研究已经有了深刻的积累,丝毫也不比国外的互联网同行差,甚至在某些领域还超过了国际同行。希望在百度的影响下,我们能更好地应用人工智能领域深度学习这样的先进技术,让我们的生活变得更加智能。”
关于百度技术沙龙
百度技术沙龙是由百度主办的、面向中高端技术人员(开发者、技术负责人、项目经理、架构师)等的线下技术交流活动,每月一期,每期由1个话题,2场演讲以及Open Space开放讨论环节组成。每期沙龙会邀请1名百度讲师分享百度在特定技术领域的成果及实践经验,同时还会邀请1名优秀的互联网公司或企业技术负责人对同一话题进行分享。
百度技术沙龙微博地址:http://weibo.com/baidutech
百度技术沙龙主页:http://salon.baidu-tech.com