本文内容选自微软亚洲研究院常务副院长芮勇博士于“清华人工智能”论坛上所做的题为《人工智能趋势之四化》的演讲。他认为未来人工智能的发展趋势是大数据化、自适应化、可穿戴化和增强化,演讲全文如下:
我为什么取这个题目呢?什么叫人工智能趋势之四化。因为到这个时候大家都很困惑,起一个稍微应景的题目。今年是“人工智能”这个词被造出来的第61年,61年前没有,这个词最开始出现是在1956年。
我为什么取这个题目呢?什么叫人工智能趋势之四化。因为到这个时候大家都很困惑,起一个稍微应景的题目。今年是“人工智能”这个词被造出来的第61年,61年前没有,这个词最开始出现是在1956年。
四化,第一个是人工智能的大数据化。首先为大家介绍一下微软认知服务,它是把微软过去20几年做的人工智能分支的好的技术,包括计算机视觉、语音、语言、知识和搜索的一些好的技术放在认知服务上去,这样有什么好处呢?可能另外一家公司,或者在座的一些朋友,你想开发一个APP的时候,不用再重新开发,直接调用就成了。现在是五个大类,包括大概二十几个小类。
到底什么是微软认知服务,为了给大家一个感性的概念,我给大家展示下幻灯片,这是去年(大概一年多以前)How-Old.net,是个很好玩的一个游戏,但是这款游戏你要知道首先人脸在什么地方,其次它的性别是男是女,还有其次,他看上去今天多大了,不是年龄的估计,是颜龄的估计。因为有了这么一些很好的API,人工智能的API,在此基础上进行程序调用,这个就写出来了。这是一个很好的例子,站在API的基础上写出更好的APP。也有很多人上传了很多图片,包括靠你们左边的,这是奥巴马一家的图片,当然这里面最高兴的肯定是奥巴马的太太,因为看上去只有三十几岁,虽然她的岁数可能比这个大一点,但是颜龄比较低,比较年轻。靠右边的其实是四十年前微软刚成立的时候的一张图片,今天微软全球有11万多名员工,但是刚成立的时候就是11个员工,连秘书加在一起,11个员工。靠左下角长得比较英俊的小伙子就是比尔·盖茨,看着就像23岁,其实他也就是23岁。微软大家知道,其实是有两个,一个是比尔·盖茨,靠左下角,另外一个是保罗·艾伦,他的颜龄看上去有50多岁。除了人脸我们知道他的性别、颜龄。其实我们也很想知道,我们人类也是一样,你看上去今天喜怒哀乐怎么样?你是高兴还是愤怒?还是有点困了?其实在去年年底的时候我们发布了第二个版本,就是可以把人类的一些情感也能估计出来,调用几个API你就知道这个小孩是有一些吃惊。我们其实一直是有这么一个愿景,希望让计算机能够看到外面的世界。
在2011年以前,深度学习没有被引入计算机视觉之前,其实我们可以看到错误率大概在百分之二十几,这是全球排第一的,一直到2012年的时候,深度学习被第一次引入计算机视觉,这个时候错误率大幅下降,到了百分之十几,之后的几年降到了10%以内,比如像2014年前后。有一个斯坦福的博士生觉得,深度学习把错误率降低了不少,我如果是一个人来参加这么一个分类的比赛,我的错误率会是多少?大家不要小看一千类的物体分类,其实不简单,为什么不简单?我如果告诉大家这一千类物体里面有120种狗,你就知道这有多难了。我自己可能只认识四五种狗,吉娃娃等等,要把这120种都区分对不是容易的事。这名斯坦福的学生把自己关在一个屋子里训练,他做了一个比赛,他的错误率达到5.1%,这就非常非常不简单,我相信在座的各位,我们加在一起也达不到5.1%的错误率。直到去年年底的时候,我们做了一个很深的深度人工神经元网络,到152层,我们把错误率降到3.57%,这已经超过了很多人的水平。
2012年的时候,深度学习刚引入计算机视觉是八层,有人说是九层,其实有一层是隐含层,其实是八层。到2014年的时候,到了九层。具体算法不聊太多,但是有一些思路上的东西,不是说从上一层直接连到下一层,而是跳过去。隔几层以后再往下走,有一点像人的神经元的连接一样,规定是每一层单个连下去,有的时候会往前跳一下。因为这个新的结构就使得去年我们在2015年ImageNet三个主要项目都拿到冠军,而且要比第二名高出很多,这是新算法带来的好处。除了我们让计算机能够看到一个图片是属于某一类的,比这个更难一点的是说,比如说他知道这个图片里面有一只猫,更难的是说你知不知道那个猫在什么地方?不仅仅告诉你这里面有一只猫,我告诉你这只猫在图片的左上角。所以,物体检测是比物体分类更难的事情。我想给大家看一下下面这个,比物体检测再难一点的就是像素级别的物体分割,因为我们知道一个图片有很多像素级别,每个像素是属于这只猫,还是属于这只猫边上的草,每一个都要分类,这是更难的事情,从图片分类到物体检测,到像素级的物体分割,我想请大家看一段简短的视频,今天已经可以做到这样的程度。
刚才说了那么多,为什么计算机视觉能够做分类、做物体检测、做像素级的物体分割?是因为我们人类生成了很多的数据,这些数据被拿来训练计算机,它才能够有一定的智能,所以这是第一类叫做大数据化。第二类,其实我们很想让人工智能有一定的自适应性,比如说我给大家举两个例子,在座的可能有一半的人会经常自拍,一些年轻的女士们经常会自拍,拍的时候你下意识地要想一想,现在的光线是不是足够亮?后面是不是有很亮的玻璃,比如在那儿拍,如果有很亮的玻璃,玻璃是看到了,但我的脸是黑的,每次自拍要操心一些事情。我们可不可以用人工智能的方法,写出来一个有智能的API,让人工智能的APP,让这个APP去操心这些事情,不要让用户去操心这些事情。我们就做了一个微软自拍,我们没有投入任何的钱,一分钱都没有投入,一个月下载量到了一百万,完全是口口相传,大家要感兴趣的话,待会儿也可以去搜一下。它能做很多的东西,不仅仅是智能降噪、自然美颜等等。其实他知道你的年龄和性别,比如你是一位年轻的女士的话,它会给你美颜美得很好,甚至把你的嘴唇再修红一点。但是,如果是我拍的话,它知道我已经很老了,没有必要把我弄得那么漂亮,弄得漂亮我反而会不高兴,所以我拍下来的是我本身的样子。所有这些很智能的东西都已经在这个APP里面,因为他知道外面的光线是什么样、外面的噪声是什么样、这个用户是男是女、是什么样的年龄。
第二个,我想给大家举一个例子是自适应的人工智能。有一个很有意思的APP,我们叫做实时翻译器。这是怎么来的呢?1966年的时候,在美国有一个连续的电影,叫《星际迷航》,我相信在座的可能也有不少朋友都看过这部电影。有很多《星际迷航》的影迷,每次电影出来,就把电影票买到了,在电影院前等着看。《星际迷航》是讲不同的星迷去不同的星球探索。不用去另外一个星球,我们就在地球上去另外一个国家,其实你遇到的问题就是你语言可能不通,你怎么跟那个国家的人进行交流?当时在电影里面有一个,这边这两个人手里抓着一个东西,任何语言它都可以进行实时翻译,不管你和来自另外一个星球的人讲什么语言,它都可以进行翻译。当然,这是一个科幻,但是我们这些做研发的人总是想把科幻变成现实。所以七八年以前我们就有一个项目,研究有没有办法我们能够做出一个系统,使得两个说不同语言的人可以实时交互?这个是七八年以前开始做,大概在四五年以前(2010年)的时候就有了这么一个系统,在我们内部进行了展示,2012年的时候,在二十一世纪的时候,我记得是在天津大礼堂,Rick Rashid这位老先生不会说中文,只会说英文,他当时是在天津大礼堂讲,讲着讲着突然听众们发现他怎么会说中文了?因为就是实时的翻译出现了,以他的方式用中文跟观众进行交互。2015年的时候我们把这项技术加到Skype里,今天这个技术已经在skype上。如果想做到这件事情,我下边会讲具体的技术怎么做,在我讲具体的技术之前,我想给大家看一段小视频,这是一个美国的摄影师在中国待了十来年,是一个背包客,走了
芮勇:很好的一个系统,但是如果为了做到这一点,必须有四个技术要做得非常非常好。哪四个技术呢?比如说小川只会说法语,他看起来像一个法国人,我只会说中文,我怎么跟小川进行交流呢?第一步,我的中文的音频系统要被实时翻译成中文的文字,并且要非常非常准。第二步,因为我跟他是日常的对话,不是在读课文,我会一会儿嗯、啊等等,有的字会重复两遍,或者说错几个字,第二个,要把说嗯、啊这些地方做翻译,第三步被翻译之后,很不错的中文的文字已经出来了,要实时把它翻译成法文的文字,这个大家知道也很不容易。你去很多中餐馆或者是一些中文和英文的翻译,就看出来很多很多的笑话。第三步也是很难。第四步,我现在不是已经有法文的文字出来了吗?小川只能看见,听不见,必须以我的发音的方式说出来这个法文,他能听见,这四个缺一不可,并且这四个,你若是每一个只做到90%的正确率,系统是没法用的,0.9×0.9×0.9×0.9,你算一下,很小了。时间关系我就不具体展开深度学习怎么做这件事情,但是我想请大家听一段简短的音频,我特意选了这段音频,因为这段音频是一个中文和英文都有的,放在一起的。这个女士只会说英文,但是你们听听她说中文是不是也像她在说话。
芮勇:其实她不会说中文,但是你合成出来她说中文就跟她说英文是一样的,你知道这是同一个人在说话,就像我一会儿说英文,一会儿说中文,你觉得是我一个人在说话,其实可以做到这种水平,让他说不同的语言是同一个人说出来的。这是我想说的第二个,叫做自适应化。
第三个是人工智能的可穿戴化,我也想给大家举两个例子。刚才长水展示几张图片,其实你现在给计算机看几张图片,它会生成一些自然语言的文字,刚才我和小川在下面讨论,他们也做了类似的系统。但是我们想一想,如果真的有一天我们的自然语言技术,我们的计算机视觉技术可以做到这么好,让计算机看到这幅图片以后,它会说一名男子正腾空而起,表演滑板。
除了刚才这个可穿戴设备以外,最近一个大家看到的微软的设备就是Hololens,在网上有很多视频,大家可以看,我请大家看这个视频,这还不是一个产品,这还是在研究院内部做的一个技术原形,挺有意思的,比如张老师在他的办公室,他很忙,说不定没有时间四个小时都坐在我们这个会议室,我们有没有办法把张老师放在这个座位上?
第四个,我叫它人和人工智能的关系。我特别同意张老师下午的演讲,其实今天这个不是人工智能和人,谁PK谁的问题。人是很形象、很发散的、很神来一笔的、很抽象的、很艺术的,计算机比我们强的是它的存储功能很强、记忆能力很强。所以它是一个很好的左边半个大脑的补充,我们人类更强的东西,我们有意识、我们有想象力,我们有很多计算机不能理解的东西。其实今后的10年、20年不是人对抗机器的问题,而是人加上机器,使得我们人更厉害。
]]>