编者注:本文来自微信公众号“OReillyData”(ID:OReillyData),作者 Jack Clark,36氪经授权转载。
根据Geoff Hinton(经常被誉为深度学习的“教父”)的观点,更好地理解神经元产生脉冲的原因可以带来更聪明的人工智能系统,其可以更有效地存储更多的信息。
Geoff Hinton是多伦多大学的荣誉退休杰出教授和谷歌的工程院士。他是神经网络的先驱者之一。作为很小一群学术人员之一,他和其他人共同哺育这项技术渡过了它所经历的研究兴趣、资金和发展的低潮期。
核心内容:
通过诸如奥巴马政府的“大脑计划”这样的研究项目完成的大规模大脑研究,有希望获得对大脑的新认知,从而为AI的设计人员带来新想法和思路。
是可以把神经科学里的发现引入到AI相关的想法里,尽管这可能会花些时间。在1973年,Hinton首先想到去实现一个类似于神经突触在多时间尺度上变化的机制,但直到2016,才发表了这个领域的一篇主要论文。
开发强大的感知系统是相对容易的,但是我们需要新的技术来构建能够推理和语言的系统。
Jack Clark:为什么我们在开发AI系统时需要关注大脑?我们需要关注哪些方面?
Geoff Hinton:主要原因是大脑是真正有智能的东西。到目前为止,大脑是我们唯一知道的聪明且通用的智能。第二个原因是,很多年来,一部分人认为我们应该关注大脑从而能让AI更好地工作,但他们并没有前行太远。在80年代他们有推进,但随后就停滞了。AI界的人们嘲笑他们说:“你不能通过研究大黄蜂来设计波音747客机”。但事实表明他们从大脑研究上取得的灵感对AI是非常有用的,而且没有这些灵感,他们也不会向那个方向去研究。这不仅仅是因为我们有一个智能的例子,还因为我们也有一个真正能工作的方法论的例子。我认为我们应该继续推进这个方向。
JC:今天,诸如神经网络的现代分类器的各个方面看起来都有些类似于我们知道的大脑的视觉系统。受海马体的启发,我们也开发了记忆系统。还有其他的领域我们可以借鉴大脑,并从中获取灵感吗?比如脉冲刺激神经元?
GH:我们真不知道为什么神经元要发脉冲。一个理论是它们想要噪声,以便正则化,因为我们的参数超过数据量。整个Dropout(丢弃部分参数,一种防止过渡拟合的技术)的思路就是如果你有噪音的激活,你就能承受使用一个更大的模型。这可能是为什么它们要发脉冲,但我们并不清楚是否真是这样。另外一个它们要发脉冲的原因可能是这样它们就能使用类似时间的维度,来在脉冲时编码一个真实值。这个理论已经出现有50多年了,但没人知道它是否正确。在某些子系统里,神经元确实是这样做的。这就像通过判断信号到达两耳的相对时间,从而就能获取方向。
另外一个领域就是在记忆部分。突触以许多不同的时间尺度和复杂的方式去适应。 目前,在大多数人造神经网络中,我们只有一个适应突触的时间尺度,以及一个激活神经元的时间尺度。我们没有这些中间时间尺度的突触适应,我认为这对于短期记忆将是非常重要的,部分原因是它给你一个更好的短期记忆容量
JC:在我们了解大脑的能力上有什么样的障碍?从而减缓我们受它启发来提出新思路的速度。
GH:我认为如果你把一个电极插入一个细胞并从中记录信息,或是把电极放到细胞附近并从中记录,或是靠近很多的细胞并从其中一部分中记录,你可能无法理解一些可能通过光学染料很容易理解的事情,比如一百万个细胞正在干什么。在奥巴马大脑计划里有非常多的事情可提供给我们新的技术,从而让我们看到(并弄清楚)那些曾经非常难确立的事情。我们还不知道它们将会是什么,但我猜想这将会带给我们一些有趣的思路与想法。
JC:因此,如果我们有足够大的神经网络,对于任何工作它能和人脑想匹敌吗?或还有什么我们遗漏的部件吗?
GH:这取决于你所说的是什么具体工作。如果你所说的是像语音识别,那么如果一个真正大的网络能和人类向匹敌的话,我会非常惊喜的。我认为这就不会很差也不会太好。人类不是上限。我认为在语音识别上,如果在10年内,神经网络不能做到比人类更好,我也不会很惊讶。对于其他的领域,比如推理和从一个非常小的样本里学习,开发一个能匹敌人类甚至是超越人类的系统会花更长的时间。
JC:现代的推断学习系统看起来有的一个问题,即了解问题的哪个部分值得专注去探索,由此你不必浪费时间在那些图像里不重要的部分。
GH:这在视觉里也是一样的。人类做出了非常智能的定位,几乎所有的光学阵列从不会以高分辨力进行处理。而在计算机视觉里,人们一般会把整个阵列上的低分辨率、中分辨率和高分辨率都获取,并试图把这些信息整合起来。所以这就是我们碰到的同样的问题。你如何智能地定位在事物上?我们也将在处理语言时面对同样的问题。这是一个非常本质的问题,而我们尚未解决。
JC:最近的一个讲演里,就你发表的一篇论文,你介绍了在神经网络里短期记忆权重修改的主题。你能解释一下这个论文以及为什么你认为这很重要吗?
GH:在循环神经网络里,如果是处理一个句子,网络需要记忆到某个时间点句子里都有了什么内容。所有这些记忆都在隐藏层神经元的激活函数里。这意味着这些神经元必须被用来记忆内容,因此他们就不能用于当前的处理了。
一个好的例子就是如果你碰到一个嵌套的句子,比如你说“John不喜欢Bill因为他对Mary很无礼,因为Bill对Mary很无礼”。网络会从头开始处理这个句子,然后用同样的处理逻辑来处理“因为Bill对Mary很无礼”。这时的理想情况是,你希望使用相同的神经元、相同的连接和相同的连接权重来处理这后半句话。这才是真正的循环,同时这也意味着你需要使用到目前为止从句子里学习到的东西,因此你必须把这些东西存放到什么地方。那么现在的问题就是:你怎么去存放它们?在计算机里,这很简单,因为有内存。你可以把他们拷贝到内存里的其他地方来释放当前内存。但在大脑里,我不认为我们是把神经活动模式进行拷贝的。我认为大脑所做的是快速改变突触的强度,从而能在我们需要记忆的时候重建它。而且我们可以在合适的上下文的时候重建它。
我最近与Jimmy Ba和DeepMind的一些研究员共同发表了一篇论文,展示了我们是如何实现这种机制的。我认为这就是一个例子,展示了了解突触可以在多个时间尺度上变化这个事实对AI的研究是有用的。我最早是在1973年就想到了这一点,并设计了一个很小的模型,在一个非常简单的任务上实现了真正的循环。一年前,我在DeepMind重新实现了这个想法,并在这个框架内成功了。现在这个框架能记住任何东西。当我第一次冒出这个想法的时候,那时的计算机内存只有64k,我们也不知道如何训练大的神经网络。
JC:你是否认为AI需要以某种应用形式出现才能变成真正的智能,比如机器人或是足够丰富的模拟?
GH:我认为这个问题有两个层面。一个是哲学层面,而另一个则是实践层面。在哲学意义上,我认为没有理由要求AI必须以某种形式呈现,因为你可以通过阅读Wikipedia来了解这个世界是什么样。但从实践意义上说,我认为实用化对AI会很有帮助。马克思说:“如果你想了解这个世界,去尝试并改变它。”仅仅只是观察去理解事务运作的机理,并不如实践行动那样有效。因此,哲学问题就是:这个实践是否至关重要?如果实践对理解这个世界至关重要,那么天体物理学就有麻烦了。因此,我的答案是否定的。我不认为AI的应用形式化是必须的。
JC:如果你可以复制某些脉冲神经元的特性,并与可以形成临时记忆的系统集成,你可以构建出什么东西?
GH:我认为这会让目前所有我们已有的东西工作得更好。因此,对于自然语言理解,我认为有一个权重可以快速变化的辅助记忆将是非常有用的。对于那些前馈传播网络,我认为重合检测器对于过滤背景噪音会非常合适。这样神经网络就能更好地聚焦于信号区,而过滤掉噪音。这在学习小数据集时可能也会有帮助。