通用智能的极简模型

本文转载自公众号@遇见未来系列 作者王老师。全文如下:

我们生存的宇宙核心概念包括空间,时间,以及时间的箭头。

空间是由力定义的,引力,电磁力,强相互作用,弱相互作用定义了不同的空间尺度。引力定义了宇宙中大尺度空间。强相互作用和弱相互作用定义了原子核内空间。而电磁力定义了我们人类生活空间的大部分现象。

时间是变化快慢程度的度量。没有变化就没有时间。宇宙中并没有绝对的时间,所有的变化都是相对的。所以时间也都是需要跟某一个固定的变化形成联系,比方日,月,年都是跟地球的运动规律相关的。

变化本身没有定义时间的方向。可逆的变化无法定义时间的方向,只有不可逆的变化能定义时间的方向。在我们生存的宇宙时间的箭头来自于熵增,即热力学第二定律。由于熵增本质上很难逆转,才造成了时间的流逝,形成了时间的箭头。

生产力的本质是对抗熵增,也就是将能量转换为一种熵减能力的过程。人类文明的历史就是更高效的获取能量,并将能量更高效的转换为熵减能力的历史。

从这个意义上来讲,钱是对熵减能力的一种度量。而投资,则是用今天的熵减能力去交换明天更高效的熵减能力。

熵增的本质是增加宇宙中的不确定性,而智能的本质是降低不确定性。所以智能本身就是一种生产力。

智能的本质是理解空间,时间,以及利用对空间和时间的理解去对抗熵增。

地球上在35亿年前就出现了单细胞生物,大约在5亿年前的寒武纪出现了脊椎动物,并且大约在这一个时代,有眼睛的动物也大量出现。大约在500万年前出现了直立行走的古人类,而现代人类的祖先,智人,大约30万年前才出现。

智人大约在7万年前进化出了语言,而依赖语言带来的强大的组织能力,智人击败了地球上的其它人种,今天地球上的人类都是智人的后代。

人类语言代表了通用智能。人类语言是一种很奇特的符号系统。这个符号系统的规则通常叫做语法。语法规则包括句法规则、语义规则和语音规则。与动物的交流方式不同,人类的语言可以表达抽象的概念和事件。一种信号沟通系统要能称之为语言,需要满足符号和含义之间的关联的任意性,时空转移性以及离散性和生成性。

在动物的进化过程中有一个很有意思的环节,就是哺乳动物进化成了恒温动物,但是付出的代价是新陈代谢的速度提高很多,同样体重的哺乳动物需要爬行动物好几倍的食物才能够维持下去。为了找到更多的食物,哺乳动物的大脑完成了一次进化:记忆和导航系统的连接。它们的大脑在最外层的新皮层中编码视觉景观特征,在内嗅皮层编码导航。整个系统通过被称为海马体的大脑结构相互连接。

大脑皮层中的神经元群对这些物体和过去事件的记忆进行编码。回忆一件事或一段经历会重新激活最初编码它的神经元。所有哺乳动物都可能通过重新激活这些神经元群来回忆和重新体验先前编码的物体和事件。

而下一个步骤则是,构建一个尚未发生的“记忆”的能力。

根据现代医学的研究,人类想象新的物体和场景的最原始的形式是做梦。这种生动、奇异、无法控制的幻想都发生在快速动眼期(REM)。科学家推测,有快速眼动期的动物也会做梦。

跟语言能力对应的是深思熟虑的、反应灵敏的、可靠的组合和重建精神对象的能力,也被称为前额叶合成。它依赖于位于大脑最前端的前额叶皮层控制其余新皮层的能力。人类是从什么时候开始获得这种能力的呢?根据许多考古资料,几乎所有时间早于7万年前的人类遗迹,如岩画,都是完全写实的,用简单的线条描绘他们看到的一切。而在那之后,则出现了很多虚构的形象和物品,如狮头人,骨针,弓箭,纹饰,甚至是图腾,这些都是自然界不存在的东西。

所以,人类的想象力和创造力几乎是和语言同一时期出现的。从此以后,人类文明就进入了高速发展的阶段。

人类智能的高度可以用一个作品来代表,那就是王勃的滕王阁序。这篇千古奇文不光是中国古代文学的杰出代表,也是人类智能的顶级表现。这篇文章展示了智能的两种主要能力。王勃将历史事件,地理人文,现场气氛,以及水天一色的美景这些信息量极大的数据压缩成了信息量极小的一篇文章,这是对复杂信息的高效压缩。而后来的人们根据这篇文章想象出了当时种种场景,则是对压缩后的信息进行恢复和升维的过程。这两个过程都是智能的主要表现。

广义来讲,语言是对知识和理论的一种结构化及逻辑自洽的描述方式。不管底层的数据是文字,语音,图片,还是视频,都可以理解为一种语言。

大部分的工作可以理解为对语言的理解和从一种语言到另一种语言的翻译过程:

1.翻译:中文到英语等

2.编程:从中文或英语到一种编程语言的翻译

3.画家:从文字到图像的翻译

4.作曲家:从文字到曲谱的翻译

5.数学家:从文字到数学语言的翻译

所以当智人进化出语言之后,人类就进入了智能时代。数学,物理,计算机,甚至通用人工智能,都是出现语言之后必然会发生的事情,只不过是时间早晚的问题。

那么人工智能是怎么模仿出人类智能的呢?

人工智能(ArtificialIntelligence, AI)- 一种计算机系统的理论和发展,用来研究能够执行通常需要人类智能参与的任务的系统。

AI的核心问题包括推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。

除了在物理空间的感知和执行能力,人工智能包含的人类智能简单来说,可以分为直觉和逻辑两种能力。

直觉是分析事物之间的相关性的能力,人类通过大量经验了解到了输入和输出的一种相关性,这就是直觉。而逻辑讲究的是运用概念、判断、推理等思维类型反映事物本质与规律的认识过程。

人类的基础逻辑推理能力,从计算机系统出现以后,就已经可以大部分用软件编程的方式模拟实现。

而人类的直觉能力,是在神经网络出现以后,在互联网大数据,先进GPU并行计算框架,以及深度学习网络模型的出现之后,开始逐步被人工智能算法所模拟。

人类的直觉,从数学模型上来讲,是一个高维空间的非线性函数,通常是一个非常复杂的从高维空间向低维空间的非线性映射。我们来看看神经网络是怎么模拟这样一种非线性映射的。

感知机(Perceptron)是一类最简单的神经网络模型。它是用一个非常简单的数学公式来模拟人类的神经元的计算。Perceptron的每一个神经元里面只有两个操作,即输入向量和神经元权重向量的点乘(内积)操作,以及一个对点乘结果的非线性映射函数(激活函数)。向量的点乘操作本质是一个相似度测量,而激活函数赋予了神经网络所需要的非线性。由于人类的很多感知器官可以感知非常大的动态范围(比如光线的亮度,声音的大小),这种非线性可以有效模拟人类处理宽动态输入的能力。

可以看到每个神经元就是一个最简单的非线性滤波器,可以从输入中选出最接近权重向量的信号,并对其动态范围进行压缩。当无数个这样的神经元互联起来,就可以模拟大部分的复杂非线性函数,也就是可以模拟人类的直觉。

以Transformer为代表的大模型已经可以理解多模态数据的内在结构,不管是文字,语音,图片,还是视频都可以取得非常好的结果。

当大模型的参数数量超过1000亿以后,涌现发生了。以GPT4为代表的生成式大模型已经可以非常好的理解人类语言,甚至已经产生了初步的逻辑推理能力。这个现象可以从两个点去理解:1. 语言直觉是个非常复杂的非线性函数,需要足够多的神经元才能去准确模拟这个非线性函数。2. 现代人类的脑容量大约是1500ml,智人的脑容量大约为1400ml,而类人猿仅为400~500ml,爪哇猿人约为900ml,脑容量达到一定的标准后人类的智能才开始涌现。

智能的程度由语言抽象程度决定。顶级的数学论文全球只有几个人能看懂。大模型已经可以理解像中文,英语这类基础人类语言,对编程语言也有比较好的理解。对数学这类非常抽象的语言开始有初步的理解。

Transformer的诞生来源于语言之间的翻译问题,它已经被证明能很好的理解语言的内在结构,以及语言和语言之间的映射问题。这种能力已经触达了智能的本质,接下来是如何提升对更抽象的语言的理解能力。

大模型目前代表了一种弱通用人工智能能力。但是人类99%以上的工作并不需要特别强的智能,大部分已经可以由大模型衍生出来的人工智能完成。

人脑有1000亿个神经元,每个神经元平均约1000个连接,所以人脑连接数上限约为100万亿。GPT4大约有1万亿个参数,大约相当于人脑的百分之一。预计10年之内我们就会拥有连接系数超过人类大脑上限的大模型,这种大模型的潜在能力不可限量。

展开阅读全文

页面更新:2024-04-01

标签:模型   智人   智能   神经元   人工智能   直觉   人类   能力   语言   时间

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top