张宏江对话美国四院院士：类脑芯片即将来临

高山大学2019年经典课程

授课老师：

特伦斯·谢洛夫斯基：人工智能科学家，美国国家科学院院士、美国国家医学院院士、美国国家工程院院士、美国国家艺术与科学学院院士、美国物理学会会士、国际电气与电子工程师协会（IEEE）会士。

张宏江：高山大学创始校董，校董会终身荣誉主席。现任源码资本投资合伙人，曾任金山集团CEO、微软亚太研发集团（ARD）首席技术官及微软亚洲工程院（ATC）院长，微软“杰出科学家”之一。是世界多媒体和人工智能研究领域一流的科学家，计算机视频检索研究领域的开山鼻祖。

※以下为特伦斯院士课程《智能时代的深度学习和核心驱动力》，文稿内容约为现场内容十分之一

很高兴跟大家见面，非常开心有这个机会与大家一起探讨人工智能（AI）。

在过去的这些年里，人工智能技术风靡全球。80年代我从事AI研究的时候，绝不可能想到我会来中国跟大家讨论这项技术带来的重大改变。

就在几天前，计算机科学里的最高荣誉——图灵奖，颁给了我的老朋友Geoffrey E Hinton，Yoshua Bengio和Yann LeCun，这相当于计算机界的诺贝尔奖，赞誉极高。

△2018年图灵奖得主

过去百年的科学和技术发展

20世纪前半叶，最振奋的科学突破来自于基础物理学，爱因斯坦发现的相对论。

20世纪下半叶，重大的突破主要集中在分子生物学。尤其是沃森和克里克发现了DNA的双螺旋结构，人类首次认识到DNA是生命的基础。由此，我们也开始研发出了新的技术和手段对DNA进行编辑，以便于更好地探索细胞的复杂性。

21世纪前半叶，最让我们振奋的科学突破又是什么呢？

也许因为我们身处其中无法判断，但我认为所有令人兴奋的发现都与信息技术有关。

有了计算机科学之后，我们进入了一个全新的信息时代。信息学成为了我们不断积累、分析，进而推演出有趣算法的一个领域。

人体内终极的信息系统是大脑，可以说当前是神经系统的黄金时代，我们有强大的技术和手段，还有海量的数据可以去分析基因组，分析脑内的神经元。

2001年，第一个人类基因组测序花了30亿美元，而现在只要1000美元就可以做到，这就是大数据带来的巨大进步。

人脑与计算机的区别和联系

△莱特兄弟在基蒂霍克做飞行试验

我想从莱特兄弟讲起。他俩都是工程师，共同经营着一家自行车店。怎么提高自行车的效率是那个时候工程师们最关注的事情。其实计算机科学家也是一样的，本质上是在关注人类如何去思考，如何做决策这样的问题。

飞机研发初期，人们希望能够模仿鸟类来实现飞行的梦想。

莱特兄弟研究飞机的时候，花了很长时间去观察鸟。他们发现鸟类在滑行的时候，可以不用扇动翅膀，只需借助风的力量就能够飞翔。于是就考虑模仿鸟类滑翔的机制来制造飞机。

分享莱特兄弟的故事，是想告诉大家，我们向自然界学习，并不是学每一个细节，而是从原则上进行借鉴。

这就好像是计算机科学刚起步的时候，大家都希望能模仿人脑。但事实上计算机的运行机制和大脑的机制是不一样的。

大脑中有数十亿的神经元，它们是异步工作的，不遵循时间的设计，做着独立的决策。这一点是芯片无法做到的。

图片识别

如何利用人工智能系统来进行计算？这是我们的研究方向。

人类可以通过经验进行知识更新、信息更新，我们如何让电脑也具有这样的功能呢？

大脑神经元之间互相连接之后，学习得到了加强，同时也可以吸收外部世界的大量数据进行整理，从而去解决一些问题。

我觉得这是计算机可以借鉴的。

1958年，康奈尔大学的弗兰克·罗森布拉特发明了一种看似简单的网络感知器算法，感知器是具有单一人造神经元的神经网络，它有一个输入层以及将输入单元和输出单元相连的一组连接。感知器的目标是确定输入的图案是否属于某一类别。

△感知器

罗森布拉特发明的这个算法可以解决现实问题。比如应用在男女性面部识别上。

首先用大量的示例图片对算法进行训练，如果计算错了，就重新开始，校正权重，直到得出正确输出结果。

△面部识别

作为人类，我们可以通过人的第二性征来判断性别，但如果去掉头发、胡须、首饰等，可能我们就无法判断了。

但是感知器不一样，样本越大，输出结果的正确率就越高，与其他因素没有太大关系，这就是感知器的优势。

但感知器也有它的局限性，那就是它只能解决线性的问题，对非线性的问题则束手无策。

对此，Geoffrey E Hinton和我一起发明了玻尔兹曼机，玻尔兹曼机中有二进制隐藏单元和可见单元，单元可以对我们的信息进行加工，投射到输出部分。从某种意义上说，这是大脑将感觉输入转化为运动输出。

早在20世纪80年代，计算机的成本很高，而且计算速度很慢，随着时间推移，计算成本逐渐下降，人们拥有了更大的网络，也可以在更大的数据集上训练它。

但其实这是一件很困难的事情，解决现实世界问题所需的程序规模是相当巨大的，视觉处理不仅要计算位置、大小和方向的差异，还必须根据对象的不同特性来区别它们。人们很多次的努力都失败了。

2012年出现了一个转折点，计算和机器学习解决视觉问题的成本开始低于比程所需的成本。

这一年，Yann LeCun提出了使用卷积神经网络进行图片分类的算法。最开始这种算法并不成功，但经历了很长时间的发展后，许多计算机都采用了这种算法，随着数据样本越来越大，他们的处理系统也越来越好。

卷积神经网络的基本结构是基于卷积的，卷积可以被想象成一个小的滑动滤波器，在划过整张图像的过程中创建一个特征层。随着进入特征层的样本越来越多，输出的结果就会更加地准确。

麻省理工詹姆斯·狄卡罗比较了猴子视觉皮层层级结构中不同神经元和深度学习神经网络中的单元。

他发现第一层中图像卷积的滤波器，与视觉皮层中的“简单细胞”类似，超过第一层之后，更高层次的滤波器则会进入复杂的视觉处理阶段，对复杂的特征做出响应和解码。

他得出的结论是：深度学习网络中每层神经元的统计特性，与皮层层级结构中神经元的统计特性非常接近。

当时做实验的时候，由于对大脑的认知不够，我们并不理解动物的视觉系统为什么能够做出相应的分析，但是后来通过深度学习网络的分层分析，我们追踪信息流一层到另一层的转变，开始可以反过来分析大脑中的神经元。

所以，深度学习能够加深我们对于大脑神经元的认识。而与此同时，对大脑的认识又进一步激发了我们对于机器学习的设计，所以这个过程是非常强大的，可以帮助我们更好地强化对两方面的理解。

场景识别

识别图像是深度学习的第一步，我们真正想做的是建立起一种能够理解复杂场景的模式。

这需要深度学习能够为图片做标注。即先标记图片中的对象，将其传递给循环神经网络，循环神经网络输出适当的英文单词串。

在这个过程中，我们会用到注意力（白色云）来表示照片中的单词的指示对象，例如图中的“飞盘”“狗”“指示牌”等等。

对于图中不同的场景，输出的结果有“一个女人在公园里扔飞盘”“一只小狗站在地板上”“路上有一个停止标，背景有一座山”等等。这些输出结果不仅英文句式正确，而且语义也没有问题。

从语言到句子

语言也是人类特有的能力。动物也有它们自己的沟通方式，但是并没有像人类一样有语义的系统。

研究语言方面，我们做的一件事是训练一个网络，来预测句子中的下一个词是什么。我们希望进入到网络中，看看每个词的内部结构可能是什么样子，了解它是如何做预测的。

这个系统有很多层的网络，最后做得也很成功。

这个网络中有10万个单元，20个层，我们分析了每一个词背后的活动规律，观察在10万维度下，不同词之间有什么样的联系，这是超出我们传统几何学理解范围的。

把多维空间中的词投影到二维平面上，我们可以看到，所有国家的词都聚集在一起，而首都的词也都聚集在一个范围内。

我们试图建立起国家和首都的矢量关系，比如将俄罗斯和莫斯科对应起来，而当我们把连接挪到意大利时，箭头自动的就会对应到罗马。

这不是一个巧合，没有任何人告知系统这个算法，但是系统自动就开始根据类型进行分组。

虽然它并不知道不同词汇之间的关系，但是依旧跨越空间维度建立了联系，这说明运算系统已经开始涉足到语义的研究中了。

由此大家开始研究文字的嵌入，在多维度的系统中嵌入文字后，就可以借助系统的学习能力去解决一系列的语义问题。

让我们震撼的是语言的翻译，语言翻译是人工智能的一只圣杯，因为它依赖于理解句子的能力。

谷歌最新版的翻译软件，代表了自然语言翻译质量的重大飞跃，因为它不再是以词组为单位进行翻译，而是升级到了语意完整的句子。

我们现在正在更加深度地分析翻译网络状态内部的进程究竟是什么样的，很有可能在未来的某一天，我们不需要借助语言的学习，就能够读懂其他的语言。

这张图里体现的是许多不同的句子，每个句子标有不同的颜色，这有点像是一个百万维度的空间。

我们很难理解这个多维空间下的结构是什么，但我们发现，这个空间中不断地有小集群出现，我们把集群放大，可以看到这个系统在训练不同语种之间的翻译。

比如我们可以看到，这里训练的是英语到韩语和日语之间的翻译，并没有训练日语到韩语的翻译。

但出人意料的是，如果我们输入了一句韩语，居然可以得出一句正确的日语句子。

这颠覆了我们对于句法的理解，而且这个过程真的是非常地神秘。

不光是3种语言之间的转化，把20种语言纳入到同一个网络中，也可以实现这样的结果。

如此复杂的网络联系，这个网络是如何做到的呢？

这个网络系统似乎通过某种方式把所有的语言转化成了中间语言，中间语言可以在不同语言之间进行更好的转化。

这对语言学专家来说绝对是非常吃惊的：因为这个网络可以自己分析出不同语言之间的底层结构。

生成式对抗网络

翻译机器能做到的是对输入的内容进行转换，继而进行输出。但是人类的大脑并不是这样的工作机制，我们通常会接收多方面的信息，然后进行各种思想活动，甚至通过联想来生成结果，这是一个本能的过程。

模仿大脑的这种机制，就有了“生成式对抗网络”，它可以自己产生活动。其实相当于同时存在的两个卷积网络，一个是生成卷积网络，一个是判别卷积网络。

生成卷积网络可以通过尝试欺骗另一个卷积神经网络来训练生成优质的图像样本，后者必须决定一个输入的样本是真实的还是虚假的。

比如说一个网络根据火山的结构和外观，自己合成许多火山的图片，另外一个网络就会判断这些图片的真实性。

由于两个网络的紧张对抗，会让输出的图片具有令人难以置信的真实感。以下这些照片都是通过合成得到的。

通过不断地改变生成式网络的输入向量，就有可能逐渐改变图像，甚至会产生混合效果。

这项技术正在迅速发展，可以想象，经过训练的新一代对抗网络，应该有可能直接创造出由已经过世的演员或者是从未存在过的演员出演的电影。

人工智能与未来

2016年，围棋的卫冕冠军，中国围棋选手柯洁认为AlphaGo肯定赢不了他，2017年对战AlphaGo失败，他说：“去年我认为AlphaGo赢不了我，是因为我发现它的玩法和人类很像，但是现在，它的玩法就像是神一般，它创造了人类从来没用过的招数。”

这给我们敲了一个警钟，人工智能不仅会复制人类的东西，还会生成一些新的东西。

△啤酒瓶弯道

在汽车行业，2008年，无人驾驶汽车就能够顺利地通过“啤酒瓶弯道”；

在幼儿教学过程中，使用机器人能够吸引孩子们的注意力，照顾到每一个孩子，协助教学。

未来人们不用担心机器人会取代我们，深度学习会让人类更智能，我们完全可以与人工智能友好相处。

2013年，奥巴马推出美国十年的“脑计划”，要大力推动关于大脑神经网络的研究。从分子到突触到神经网络，了解大脑活动的各种复杂机制，继而转移到深度学习网络中，反过来，通过对深度学习网络的研究来更好地理解人类的各种行为。

我们对大脑的认识目前来看还是非常少的，人的大脑里没有任何光线，也没有传感器，但是我们在观测阿尔兹海默症患者脑活动的时候发现，当人什么都不做的时候，大脑有的区域会自动激活，我们并不知道大脑里发生了什么。

我们观测斑马鱼脑活动时，发现大脑内差不多有8万多个神经元会同时被激活，这说明动物和人一样，也在进行思考。但是在没有传感器的情况下，它们是怎么激活的呢？大脑内测量到的信号又该如何去解读呢？这都是未来“脑计划”希望解决的问题。

高山夜话

△高山夜话

张宏江：非常感谢特伦斯精彩的介绍，给我们讲了很多神经科学和深度学习之间的关系。你的演讲中提到人们通过学习大脑的工作模式来给机器赋予计算、思考甚至是决策的能力，但就目前的技术水平而言，我们对大脑的工作机制其实了解得非常少，这种情况下，深度学习是怎么走到现在的？

特伦斯：我们对大脑的知识了解很多，知道大脑的每一个分子结构，知道大脑不同组成部分是如何运作的。但是我们还有很多不了解的，比如大脑神经网络是如何互相联系，如何产生活动的。因此我们希望发展更多的工具比如计算机，来更进一步地了解神经科学这个层面的一些知识。

观察视觉系统中每个神经元的反应，可以看到神经元是如何一步步传递神经信号的，现在通过深度学习，可以复制这个过程。这样一来，我们就能够更清楚地了解大脑。

但是就像我刚才讲到的关于鸟和飞机的例子，虽然飞机是模仿了鸟类造出来的，但是飞机却做不到像鸟一样从一个枝头飞到另外一个枝头，飞机只能是直线飞行，而有些东西是比飞机更为复杂。

我们学习的是大脑的原理，而不是细节。在多年观察的基础上，从现象中抽象出隐含的约束条件，这就是深度学习发展起来的基本方法。

张宏江：您刚才提到了有许多数学家开始对神经网络进行了数学分析，这其实是理论滞后实践。从科学发展的进程来看，尤其是物理学和电子学的发展过程中是理论领先，从而指导了实验和设计，但在深度学习的发展上似乎这个过程正好相反。

特伦斯：举个例子来说，250年前，瓦特发明了蒸汽机，他当时是运用直觉做到了这一点，并没有使用热力学。实际上热力学理论很早就已经存在了，后来被用来不断地该进蒸汽机。可以说，它助力了物理学的发展，开启了工业革命。

另外一个反面的例子就是约瑟夫·傅里叶，大概250-240年前，他一直尝试着解热力方程，并且发现，如果使用一系列展开式，每一项都是一个解，把每项系数相加，就能得到解此方程式的函数。

因此他将自己的发现写了出来，并向法国数学期刊杂志投稿，但遭到了数学家的拒绝，认为这不是数学函数。其实现在我们知道，这是一种很好的分析方法，这是数学上非常辉煌的方法，两百多年来，这种方法已经应用到了很多问题上。

张宏江：我比较惊讶的是，AI已经发展近30年，有那么多的数学家在研究这个，他们也有非常好的数学工具，为什么他们没有提出深度学习这个算法呢？

特伦斯：你知道，人都有思维障碍的。在深度学习方面，一个非常有影响的人的反对，可能会影响几代科学家的工作。

张宏江：可以说，深度学习是人工智能的里程碑，2018年图灵奖授予深度学习的专家也印证了这一点。深度学习解决了过去很多无法解决的问题。你觉得这意味着一个辉煌时代的结束，另外一个新的时代的开端吗？还是说，人工智能有可能会迎来一个10-20年的黑暗时代呢？

特伦斯：我觉得，我们的理论发展其实停滞了多年，我们的发展模式是起起伏伏的，但是我可以断定，不会永远都这样的。

张宏江：1979年你预测了神经网络和AI将会在2015年有突破性的发展，那个时候你是完全依据摩尔定律预测到了2015年计算机能够满足神经网路的计算需求。

现实中情况是，2015年中国的孙剑研究团队开发的ResNet在图像识别（ImageNet）竞赛中超过了人类的识别能力。你预测非常准确，很了不起！

现在我们看到越来越多的人工智能的应用，人工智能在很多应用中可以说已经战胜了人类。那么，你能预测一下未来10年里，人工智能会对人们的生活带来什么样的改变吗？

特伦斯：在此之前我想先问你一个问题，上世纪90年代，互联网问世，那是它只用于军事和学术目的。直到一款叫做Mosaic的浏览器出现，互联网商业化才开始了。当你第一次用浏览器的时候，你能够预测到浏览器会对我们生活的方方面面都产生影响吗？

张宏江：我肯定不会预测到，但是我可能会预测图书馆会消失，因为我们可以在网上获得各种各样的知识，所以我觉得图书馆可能会消失，但是我预测错了，现在图书馆还在。

特伦斯：确实，当有新技术出现的时候，人们是无法想象他将来会如何使用这项技术，甚至是连发明人自己都想象不到。

最早的电视机发明出来的时候，当时记者就问电视的发明者：电视将来要怎么用？对世界的影响是什么？他当时说会给电话带来革命性的变化。

但其实电视的影响力远不止如此，所以你看，其实这是没有办法做预测的。

张宏江：在中国，在北京，有很多芯片生产商。您觉得人工智能芯片会大爆发吗？人工智能芯片和普通芯片有什么区别？

特伦斯：人工智能芯片可以优化神经运算系统。现在我们的芯片设计已经非常灵活，可以做集群分析和树分析等等，机器学习中的许多其他算法也可以用作特殊的目的。

现在很多芯片存在最大的问题是能耗高，如果能把能耗降低哪怕10%，也能节省不少成本。所以新一代的芯片主要关注在能耗方面。

人脑的神经元是非数字的，每秒钟都在进行大量的运算，但是耗能却非常低，还能实现异步运算，这一点是芯片远远比不上的。

加州理工学院Carver Mead是人工智能芯片的先驱者之一，他利用模拟电路模仿生物神经系统结构。新一代的人工智能芯片价格便宜，耗能逐渐降低，只需要8位精度，不需要64位，不需要整体的时钟，而且也能实现异步运算的功能。

现在有上千家的公司在做这个事情，针对个性化的需求，开发出非常多的应用程序，并且几乎每天都在扩张。所以在未来，英伟达的人工智能芯片的市场前景应该不乐观。

张宏江：你觉得未来会有类脑芯片的出现吗？

特伦斯：不用等到未来，类脑芯片或者说是强化芯片就要出现了，很多公司已经开始在做这些事情了。

我们不能用错误的问题来训练强化芯片，所以我实验室的一个研究生做了这么一个实验，在反向传播算法中，用强化单元去替换任何一个连续网络，然后进行扩展，使它在网络中的所有权重都增加一个定量。

实验结果表明，经过训练后，分级网络几乎无法辨别强化网络的性能区别，这意味着我们可以交换更加复杂的多层网络，然后用一定的能量来提高其性能。

张宏江：刚才讲了很多图灵奖的情况，您和获奖者Hinton有过多年的合作，你对他了解吗？能不能讲讲他有些什么让你难忘的特质？

特伦斯：他是我最好的朋友，他与中国很有渊源。我们共同发明了玻尔兹曼机，我们建立了能够跟人脑的逐层分析能力进行关联的机制。我们当时深信已经把人脑的机制弄明白了，但是当时我们意识到计算能力远远不够，所以需要很长时间来继续推进。

所以，我们当时我们各自面临着一个重要的职业决定。我做出的判断是我等不到2015年了。所以我当时就决定，我要进入到运算神经科学这个领域中，而且也把运算的技术带到了这个领域。

Hinton选择的另外一条路，他很执着，他要让玻尔磁曼机运行下去，所以他接下来的30年都在不断地探索，他想到了一个绝妙的注意，就是在没有监督学习的情况下，把网络一层一层地建立起来。

图灵奖也恰恰奖励了一门心思坚持做研究的研究人员，这对于普通人来说是非常难的。回顾一下所有那些取得巨大进步的伟大科学家，包括牛顿，他们都是非常专注地进行研究的学者。发现了问题之后不轻易放弃，持续地一年又一年地去研究这个问题，直到找到问题的答案，这就是Hinton拥有的一个特质。

在那30年中，每隔几年我都会收到他的电话，每次第一句话都是“我想我已经搞明白了大脑是怎么工作了”，每一次，他都会告诉我一个绝妙地改进神经网络模型的新方案。

张宏江：有很多人对深度学习有一些批评，您之前就已经预测了2015年会迎来深度学习的突破。

但是这么多年当中，时至今日，我们依然会有同样的疑问，我们人的学习非常快速，不需要那么多海量的数据，从少量的例子就可以进行学习。

但是今天有了强大的计算能力，深度学习网络却依然需要这么多海量数据，有人在质疑，其实机器学习并不是真的模仿了人脑？

特伦斯：这是一个非常有趣的领域，目前正在进行大量的研究。监督学习之所以占主导地位，是因为它非常高效。

但如果与人类的婴儿做对比的话，你就会发现，婴儿其实也花了好几年的时间在不断地学习、体验，每秒钟婴儿的大脑内会有近百万个突触在同时进行信号的传递。这是一个漫长的过程，在这个过程中，其实婴儿接受的就是大量没有标记的数据的训练。

在婴儿出生的第一年，他们的行为和动作都是非常不协调的，这说明一般的对抗网络是没有监督、没有标签的。

但是婴儿可以进行自我监督学习，对外界世界反复做出测试并接收反馈来提高神经网络的性能，也就是强化学习。此外，婴儿还会通过模仿学习来获得技能。对比来说，其实婴儿接收到的数据更多更大。

高山大学（GASA）2020级招生启动，点击阅读原文了解更多，与全球科学家一起探索科学的乐趣。

展开阅读全文

页面更新：2024-03-14

标签：卷积芯片高山神经元神经网络人脑人工智能美国院士算法深度大脑人类语言发现系统网络张宏江

1 2 3 4 5

张宏江对话美国四院院士：类脑芯片即将来临

过去百年的科学和技术发展

人脑与计算机的区别和联系

图片识别

场景识别

从语言到句子

生成式对抗网络

人工智能与未来

高山夜话

高山大学新班子公布

吴军：企业家需要学“道”而不是“术”

用核弹炸掉飓风，靠谱吗？

几何平等是天下最高法则

王小川：中医是一种哲学

生命无高低，万物皆有灵

皮克斯创始人：聪明人为什么会做愚蠢的决定

高山大学20级首批名单公布，苏泊尔苏显泽、华米黄汪、张康等入选

王小川：向生命学习做公司

为何日本会有超过25000家百年企业？

古希腊数秘术：荒谬中充满神奇

帝王师梦碎，他却用数学影响了西方思想史

东京大学教授谈生命力：坏人活百岁其实是有道理的

科学是这个时代的本质丨高山大学2019级秋季班硅谷开学

苏格拉底之死

高山大学新班子公布

高山大学20级首批名单公布，苏泊尔苏显泽、华米黄汪、张

科学是这个时代的本质丨高山大学2019级秋季班硅谷开学

这个发现相当于在金字塔里找到原子弹

高山大学2019级全名单公布

周忠和：科学不是洪水猛兽，人类未来在我们自己手中

高山夜话：思想的乐

高山大学2020年课程发布

传染病如何改变人类历史的走向？

2020年高山大学张首晟奖学金开放申请