首页 专栏余凯正文

余凯:人工智能将让每个平凡人更伟大

过去60年的大部分时间,人工智能一直基于规则的系统进行发展。从上世纪80年代末以来数据驱动的人工智能成为主流,一旦将数据导入机器,机器就可通过消化和吸收生成对世界认知的模型。而未来,所有设备最终都将成为广义的机器人,可以进行感知、理解、决策。这将为人类发展提供更多可能性。人工智能的伟大之处不在于让机器更伟大,而在于开发智能机器来辅助人,让每个平凡的人变得更伟大。

1956年,人工智能(artificial intelligence) 这个词汇诞生于Dartmouth会议,参会学者提出了非常有远见的思考,如何让机器仿真实现智能。当然,这样的思想,更早甚至可以追溯到十七世纪末的哲学家、数学家莱布尼茨,他最早提出通过数学演算来模拟智能。参加Dartmouth会议的先贤们虽然有远见,但有些过分乐观,他们认为人工智能的基本问题可以在一个夏天解决,但是这些问题至今也没有完全解决。

“传统人工智能系统”多以科学演绎的方式发展

人工智能首先应具有感知的能力,通过传感器能够感知到环境的变化;其次是理解力,从感知阶段上升到对世界的理解;第三是决策能力,通过理解之后做出决策。

人工智能最简单的形式是通过观测到的现象、数据、知识,映射成预测、判断。例如,输入图像输出“物体”的名字的映射,就是图像识别;输入语音讯号输出“文本序列”,就是语音识别;输入一段话输出“解析的树状结构”,就是云储;输入车辆行使周边路况情况输出“控制决策”,就是自动驾驶。

过去基于规则的人工智能系统,多以演绎的方式来建立系统,其概念类似“一生二,二生三,三生万物”。从一个基本法则出发,推导出一个纷繁复杂的系统。这种方法主要受自然科学的方法论的影响,通常从不言自明的公理出发,但从这一思维出发所得到的人工智能系统,常常会过于简单。

传统基于规则的人工智能系统,没有取得积极的成果,但却得到了很多教训。其一是这个世界是纷繁的,存在着很多因素和要素,彼此之间有复杂的影响,形成复杂的网络和系统,难以用一个公式来描述;其二是有很多因素和参量不能观测到,所以系统具备不确定性;如果用确定性的规则,无法掌握这样的复杂系统,要采用基于统计的概念;其三是现实世界纷繁复杂很难完整描述,只有从数据中不断地学习、加深对问题的理解,同时跟随数据的演化和进化,才是关键。这也是“大数据”的重要意义,数据在本质上,为人提供了了解世界的可能。

隐约听到“轰隆隆的雷声”

如果说2000年以来,由于互联网带来的数据极大丰富,人工智能在搜索、推荐、广告等互联网的应用上扮演了关键角色,人工智能处于“润物细无声”的萌芽期。那么在2010年以来,人工智能所处的阶段,笔者称之为“于无声处听惊雷”的发展阶段,因为我们还是能隐约听到“轰隆隆的雷声”。人类一直在思考,是否可以通过技术的手段复制人类非凡的大脑和智力,这也是人工智能令人着迷之处。回顾信息技术的发展历程,从信息理论到图灵测试、通信技术发展、计算机信息科学等发展都是为了一个结果,即通过计算让机器具有智能。

现在提到人工智能,一个颇具浪漫主义的观点认为,“强人工智能”拥有跟人一样的智能,有强大的学习能力。伟大科学家图灵的图灵测试,提出如果人类分辨不出幕布背后是机器人还是人,其幕布背后的机器就具有“强人工智能”。今天的“人工智能”离真正意义上的“强人工智能”还差得很远。另一种观点认为,机器人具备部分的人工智能,我们称之为“弱人工智能”,它在某个不确定的环境下,完成某类特定任务。

对人工智能,大家也常常有哲学思辨的热情。曾经有一个叫做“思想实验”的例子:如果一个房间里关着一个不懂中文的英国人,但是在房间的桌子上有一本中文书需要他来进行认知。而这时从门外递进一张英文说明,需要他按照说明查阅书里内容后写出一份中文翻译,结果是他写出来了。这看起来很智能,但是这个英国人并不懂中文,他写出翻译的表象行为是否是他的智能呢?其实行为方面表现的智能,并不是真正的智能。有一种解释是这个英国人不懂中文,所以体现不出他的智能,但是“英国人+书+房间”,这个系统是智能的。

互联网的本质存在深刻的哲学思辨

在纷繁复杂的世界里,为解释人和世界的关系,孔子提出了“仁”,宗教提出了“彼岸世界”,互联网提出了“人和世界的连接”。人和世界的连接包括人和信息、人和商品、人和人、人和服务的连接,这也催生了一系列行业机会,创造了巨大的社会价值。互联网带来的重要启示,就是高效连接非常重要。

网络索引的趋势是从无序到有序,让无结构化的信息变得有序,更加方便人们获取信息;从数据到语义,方便人们了解数据背后的内容;从线下到线上,检索虚拟信息、商品信息、线下服务信息。

搜索引擎就是一个人工智能系统,因为它有一个非常精致的结构:其拥有感知能力,借助免费服务,用户都在为搜索引擎提供数据,真实的信息也因此在不断分层,即外显信息(在社交上晒出的)、部分信息(在特定地方分享)、隐私信息。互联网最精巧的商业模式之一,就是拿着用户信息实现商业价值。正因为对用户的了解足够正确,就可以推出符合用户当下的广告或商品,这就是一个强大的基于大数据的人工智能系统。

一切的连接都需要通过媒介,互联网通过个人电脑、手机、智能硬件等延展人的能力,使人和世界的连接更加紧密。通过大数据的支撑,人可以用自然的方式和机器交互,而机器可以更好地索引世界。未来交互的终极形态将是“心灵感应”和“脑机交互”。

所有这些,都与机器的进化息息相关,即从个人电脑到智能手机,再分化出智能硬件,最后的趋势是发展出“智能助手”,类似人的助理帮助人完成任何事情。未来通过无处不在的传感器和强大的计算能力,人和机器将完全融为一体,机器将变成在计算机控制下,具有自主行为的机器,它完全懂得人的想法,并能够自主完成人们想做的事。

机器变聪明后其在很多方面将超越人类。如对机器而言,学习将是一瞬间可完成的事,只需通过光纤网络传输。而人要学习知识则需要通过语言、交流以及很长的时间记忆,才能真正地理解。机器却能在极短的时间内复制知识、交流知识,其对人类将可能产生威胁。而规避这个威胁的方式,是在交互上取得突破性进展,使人和机器的交互变成零距离。这样,人也可以具有机器的能力,例如将小型芯片植入人体内。

找到一个简单的规律

目前人工智能面临的问题是,如何从数据中学习映射函数,形成训练样本。例如将多个图片定义为“长颈鹿”这个标签,系统通过训练学习,然后自动再将类似新图片打上这个标签。

从有限推导无限是不可能的,除非设定了假设,如果没有假设就无法做出判断。“近朱者赤,近墨者黑”就蕴涵了一个朴素的智慧,即在判断的时候一定要隐含假设:两个在某些方面相似的人,在其它方面具有相似的特征和特性。

这就反映人工智能的本质问题,即假设的合理性。人们希望从数据得出的结论是简单的、光滑的,而不是复杂的。所以哲学上有一个词汇——剃刀原理,它指在能够同时解释某个现象的几条规律中,我们喜欢选择其中最简单的规律。总而言之,我们希望能够找到一个规律,既能找到观测样本,又能得出简单的结果。

从纷繁复杂的样本中抽取并总结规律的最好机制,就是人类的大脑。它能够举一反三、不断地学习。在学习中,最简单的单元就是神经元,它有很多神经簇,这些神经簇和其它的神经元相连,神经元接收到外部的信息输入后,把对信息信号的反应通过神经末梢传到其它神经元,这个构造可以用感知机模型这个简单的数学公式描述。基于单个神经元构造具有学习能力的人工智能系统,像神经元一样,从外界获得输入后,传递到中央处理的地方,通过简单的运算再向外输出。

今天,这个简单的模型正向几个维度扩展,其将从线性的输入/输出,发展到深度神经网络,最后形成具备学习功能的人工智能系统。

"深度学习"将加速人类进入人工智能时代

模拟人类大脑的分层结构以及行为

今天已经发现了基于视觉的神经网络(科学家在研究过程中受到了大脑内视觉信息分层表述的启发。随着视觉输入流从视网膜传输到初级视皮层,再到下颞叶皮质,在识别物体前,每层都会进行处理,从而准确地识别物体)。因此,可以用数据训练系统,让系统能够反映出视觉神经网络的结构和行为。为了模拟这一过程,神经网络的设计者们在模型中设计了几层计算。刚开始,最底层的神经元对颜色不敏感,对边界和朝向敏感,它能复原出物体的轮廓,把轮廓提取出来;上面一层的神经元具备一些更有意思的行为,对物体的部位很敏感;更高一层的神经元对物体开始敏感,它是一个逐层的、从局部到整体的敏感过程。这就是从数据开始呈现的视觉网络行为。

在听觉神经系统中也有类似现象,我们用数据的深度训练也得到类似的结果。

深度学习特别适合大数据

过去的模型和方法对大数据的处理存在许多问题,通常衡量一个模型的优劣是用推广误差进行测试。通过推广误差找到原因并得到控制,从而找到一个更好的学习办法。推广误差来自于以下几方面:

其一是对模型进行假设,但模型假设会存在误差。在概率统计学中有一个著名的说法:你所有的模型都是错的,但有些模型是有用的;

其二是数据的不完美,因为样本有限、或有噪声、或有偏差。这几种情况都会带来误差,因为典型的统计学范畴忽略了一点,即假设了无限的计算资源;

其三是计算机完成的实际问题也会导致计算的不完美,会导致误差。所以要尽量让假设完美、让假设足够宽泛、收集大量的数据并寻求算法处理大数据。

传统人工智能算法不能处理更大规模的数据,因为如果算法的复杂性和样本是立方的关系,当计算机设备数量和样本成同比立方增长时,将意味着数据增加算法更难,这就是为什么深度学习应该受到重视,它特别适应于大数据,数据越大,算法越好。

深度学习是一套灵活的建模语言

写出一篇好文章和做出一个好的人工智能系统是相通的,即对语言有足够灵活的驾御能力、需要对所面临的生活和问题有深刻的感悟和思考,灵活的建模语言和内在洞察相结合,才能够做好。

深度学习是历史上第一次出现的端到端学习,不管是语音识别还是从感知、预处理到预测、判断,过去绝大部分的工作是做最后一个部分,而没有完成前面的几个动作。从计算上来讲,在没有深度学习之前,上面几个步骤是消耗计算资源的、人工手动的,但深度学习是一气呵成的,减少人工手动。这个变化是革命性的,今天这已经成为共识了。

人类大脑是通用处理器吗?人从猴子到现在的人类,人之所以能够从物种中脱颖而出,是因为大脑对人类所需要的特殊能力在不断进行优化。从本质上说,大脑是专用处理器,并非通用处理器。

大脑的计算过程较慢,但是人脑对诸如开车、打乒乓球等行为进行了加速处理,从结构上做了专门的优化。

智能不等于智慧

人工智能大规模的应用,伴随着互联网的发展。

2000年-2009年,是人工智能重新起步的发展阶段,其最大的应用在于PC互联网领域,如搜索、广告等。

2010年-2019年,语音、图像、机器人操作,将获得突飞猛进的发展。同时,传统行业不断地被颠覆,这是一个“于无声处听惊雷”的时代。

2020年-2029年将是一个“阳光灿烂”的时代。交互将无处不在,人与机器的操作距离越来越短,生产线的工人将会被替代。简单、重复性的工作将被解放,从万物互联到万物智能,数据将成为商品。但我们也无需对机器有太多的担心,2029年的机器仍是没有好奇心、没有情感、没有自我意识的。

笔者认为,智能不等于智慧。在未来,从万物互联到万物智能将有几大趋势,即所有设备都有智能传感器;所有设备都与云端结合;所有设备都连接人和服务;所有设备最终都成为广义的机器人,可以进行感知、理解和决策。

本文经余凯本人审阅,根据近期公开发言整理。

☞点击进入 余凯 在数据观的专栏栏目>>>

责任编辑:王培

分享:
延伸阅读