公共算力 VS. 私域算力

最近ChatGPT大火,少数先知先觉的人很有紧迫感,大有一种如果不马上跟进就会被时代淘汰的危机意识;更多的普罗大众是后知后觉者,娱乐的热度过去之后,该做什么还做什么,貌似世界怎么发展既不由我决定,也在可预见的外来与我的生活干系有限。

人类个体记忆的有效关注窗口一般都很短。我们今天几乎无时不刻地与手机绑定在一起,而这个现象可以说是源于2007年6月29日的一个发布会。我至今仍然清晰地记得,那一天并没有觉得有什么重要的变化,之后至少一年半时间我都轻蔑地拒绝了智能手机。回过头去看,这个离身片刻就会让我焦虑无比的发明,它的历史短得可怜。有人说,未来10年你身边最常用东西,现在或者还没有发明出来,或者才刚刚萌芽。

1、海量的信息

人类当前的基础科学突破发端于20世纪早期,广义相对论、量子力学的产生打开了一扇通往科技爆炸的大门。进入到21世纪,虽然基础科学寥有重大突破,但人类社会进入了一个信息科技爆炸的时代,单位算力和存储的成本呈指数下降的趋势。我没有仔细去查数据,但有相当大的把握估计:最近10年,人类所产生的以比特计算的信息量,远远超过了之前全部人类有史以来所积累的比特数,最近两、三年,随着视频应用地暴涨,这个趋势正在愈演愈烈。

正是基于此背景,ChatGPT作为一种源于自然语言处理(NLP)领域的人工智能技术,走到了前台。现代计算强化学习的奠基人之一理查德·萨顿(Richard Sutton)在一篇博客文章《苦涩的教训》(http://incompleteideas.net/IncIdeas/BitterLesson.html)中指出:“从20世纪70年代以来的人工智能实践可以总结出一个最苦涩的教训,最简单通用的方法才最有效!之所以如此是因为单位计算和存储的成本持续指数下降。”换句话说,只要这个趋势仍然继续,在AI领域应该投入的最主要的精力不是去注入人为的“领域知识”,而是尽可能地投入数据+算力,让机器自己从最简单的统计规律中寻找答案。

《苦涩的教训》和人类培养下一代的教育方式在直觉上背道而驰。我们总是觉得应该把已有的经验和教训总结出来,以最有效的方法告诉孩子们,省得他们去踩“不必要的”坑。然而仔细想来,果真是这些前人的“经验”在教育中发挥了最大的作用吗?其实并不是,如果人类的后代都严格听从了父母的告诫,不去走一些看似危险的路,那么绝大多数的发明创造都不会发生。真正在现代教育中起到决定性作用的是十年、甚至二十年持续不断地让孩子接触最为广泛的知识,并且允许他根据自己的喜好去闯荡从前未曾触及的领域。急功近利地灌输确实可以在较短的时间里培养出一大批合格的“劳动力”,却无法真正点燃创造力的火焰。同样意义上说,ChatGPT的火爆,源于海量的算力、海量的数据、简单有效的统计算法。在这个自学习的大模型上,稍加调教就涌现出了类似于人类智力的逻辑推理能力。当然,出于伦理等方面的考虑,OpenAI还是对大模型做了一些人为的裁剪和控制。

2、人类公共记忆

未曾经过刻意专业知识培训的ChatGPT 4.0在众多专业领域的测试中都涌现出了超越该领域经过专业训练的入门级新手的能力。我们要追问这个能力的源头在哪里?网络上有一张流行的图片,讲述了从数据到信息到知识再到洞察到智慧最后到影响力的过程。从本质上讲,人类活动所积累的数据/信息比特是所谓的“公共记忆”。它们过去以口口相传、摩崖石刻、书本秘籍、电子文档的方式被记录下来。绝大多数这类信息所记录的是前人经验的各种事务,它包含了对事务参与各方的描述、连接方式、在不同情况下的输入、输出反馈,说到底它描述了各个实体之间的“关系”;并且,关系越强烈,越容易高频出现(在记录中)。这实际上是ChatGPT能区分猫狗老虎与瓜果蔬菜的根本原因所在,也是它在各种标准化考试中斩获高分的基础。

人类“公共记忆”非常关键。牛顿力学、相对论、量子力学实际上是一类叫做“物理学家”的人群的公共记忆;各种明细的法律条款、大量历史案例判据是“法学家”人群的公共记忆;各种疾病症状、治疗方案、用药病例、临床诊疗记录是大量“医生”人群的公共记忆......等等。人类个体的生命非常有限,每个人在生命存续的过程中,为人类的公共记忆的某些方面增加了一些比特。“书籍是人类进步的阶梯”,人类发展不仅站在“巨人的肩膀上”,更站在全部人类“公共记忆”的基石之上。当我们把纸质的图书汇聚在一起的时候,就有了“图书馆”,而图书馆最重要的工作是为这些书籍建立一个可供查找的目录;当数据、信息、书籍被电子化,就有了“数据仓库”,数据仓库最核心的技术是建立查询索引;进入互联网时代,谷歌百度等搜索引擎通过网络蜘蛛把大量的信息抓取到自己庞大的内容库中,并为这些内容赋予了可被搜索的能力。人们为了完成某项具体的任务,需要获取足够的信息。当自己的信息不足时,一般会先和身边的其他人请教,如果仍不够,就会去图书馆或者搜索引擎查找,以弥补不足。可以说,在ChatGPT横空出世之前,有关于人类公共记忆,绝大部分工作是搜集、整理、存储、索引以应对查询。这时的人类公共记忆,表现出静态、被动的特征。

ChatGPT通过引入超大规模的算力,在人类公共记忆的基础上用算法来挖掘信息之间的关系,建立了一个新模型;这个模型又进一步在算力的支撑下,具备了理解、翻译、推理、完成一定任务的能力。它把人类公共记忆转化为一种动态的、主动的服务输出。从它目前的表现来看,这个模型在很多领域已经完全达到了一个需要经过多年实践、训练才能胜任的“高级助理”的水平。并且,由于训练数据几乎包含了人类公共记忆的各个方面,这个大模型具备了通识的能力,相比人类的个体,其知识的广度、细节的记忆都有大幅的超越。ChatGPT 4.0已经向所谓的AGI(Artificial General Intelligence,通用人工智能)迈出了坚实的一步。

3、公共算力和私域算力

正如我们在前面提及的,为了完成一个特定的任务,人类需要获取足够的信息,并且要有能力处理这些信息。在每个人以及他所能驱动的有限资源内,有一定的信息储备和处理能力。这个我们称之为“私域记忆”以及“私域算力”。在绝大多数情况下,要解决有实际意义的问题,都需要获取额外的信息,也有可能需要获取额外的算力来处理这些信息。过去,这些额外信息的获取和处理,都需要任务的负责人自己去搞定。有了类似于GPT的模型之后,就可以以需求表达的方式直接委托GPT大模型来完成信息的获取和处理。

大模型提供了“公共记忆”+“公共算力”的服务。类比电力供应,当用电侧按照供电方提供的参数接入电网,例如220伏特、50赫兹就是中国的民用供电标准,那么无论什么电器就都可以享受到公共电网的电力服务。再类比云计算,需要使用服务器的用户只要遵从云厂商的标准,就可以在不了解物理机实际参数的情况下,直接使用云厂商的各种虚拟化的服务。GPT的本质是通过预训练,把人类的“公共记忆”变成了通用的“公共算力”,只要你善于提问,它就能在很大程度上给出一个相当于行业专家的回答。这个服务可以应对广谱的需求,把获取信息、分析信息、逻辑推理的任务交给一个通用的公共算力,可以大幅节约每个具体任务所需要建设的私域算力。

一般而言,服务的规模越大,虽然一次性建设的成本上升,但分摊到大量的下游应用时,会产生巨大的成本节约。另一方面,各种各样不同的诉求,只有都遵从相同的标准,才具备了合并起来放大规模的可能性。GPT模型是一次把人类知识收集、整理、翻译、推理标准化的尝试;从现有的表现来看,它已经展现了令人惊讶的能力;并且,由于它本身是一个通识的人工智能,其应用的可拓展性非常高。与当年苹果公司发布iPhone类似,一个未来在各个领域大显身手的标准化服务正在逐步浮出水面。

4、风险

成本优势明显,商业价值可期,但基于GPT模型的公共算力服务并非没有风险。

首先,由于搭建这个基础设施的算力需求巨大,只有大规模的服务商有能力提供,很容易形成寡头市场的局面。在少数供应商的条件下,如何监管供应商的商业操守并不是一个简单的任务。历史上,原先声称“不作恶”的公司在获得了接近垄断的商业地位之后开始作恶的例子并不少见。

其次,中心“公共算力”的能力越强大,它相对于每一个人类个体的优势就越明显,目前完全看不出这个差距有可控的可能性。当这个强大的AGI足以碾压每一个人类个体的时候,人类会不会失去控制权?这并非一个杞人忧天的无稽之谈。早些时候,2018年图灵奖得主杰弗里·辛顿(Geoffrey Hinton)在离职谷歌的时候就曾经表示了对失控的忧虑,甚至在采访中透露了对自己工作的后悔之意。从人类文明发展的角度看,人类个体现有的体能、寿命、记忆力、大脑逻辑推理能力、信息沟通速率非常有限,与已经发展的庞大文明体系以及未来更加广阔的前景格格不入。因此,大量科幻作品指出,人类作为一个种族天份不高的物种,很可能并不能适应未来文明发展的需要;或许,现代人类不过是一个过渡的物种。

有限的私域算力如何与未来近乎无限的公共算力和谐共存且互为帮衬,这是GPT时代难以绕过的一个重要的课题。未来已来,无可回避,就像现在我们离开了手机就几乎无法生活,当我们离开了AGI也无法生存的时候,一种新的融合就必然会发生。至于最终何去何从,在我个人的预判中,留给人类的时间也并不太久了。

展开阅读全文

页面更新:2024-05-01

标签:逻辑推理   人工智能   模型   人类   记忆   领域   能力   未来   数据   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top