“请慢一点”-2022年人工智能的7大故事

今年,人工智能专家不止一次重复了一句熟悉的话:“请(脚步)慢下来。” 2022年的人工智能新闻是快速而无情的; 一旦你知道了人工智能的现状,一篇新论文或新发现就会让这种理解过时。

在2022年,我们可以说达到了生成式人工智能的极限。生成式人工智能可以生成由文本、图像、音频和视频组成的创造性作品。今年,经过10年的研究,深度学习人工智能出现了,并开始进入商业应用,让数百万人首次尝试这项技术。人工智能的创造激发了人们的好奇,引发了争议,引发了生存危机,并吸引了人们的目光。

让我们来回顾一下今年七大人工智能新闻。很难只选出7个,但如果我们不把它剪掉,我们将会在2023年甚至更远的时间里继续写今年发生的事情。

今年4月,OpenAI发布了深度学习图像合成模型DALL-E 2,其从文本提示生成图像的看似神奇的能力让人震惊。通过对从互联网上提取的数亿张图像进行训练,dalle 2知道如何将图像进行新颖的组合,这要归功于一种称为潜在扩散的技术。

推特上很快就充斥着宇航员骑在马背上、泰迪熊在古埃及漫步的照片,以及其他近乎真实感的作品。我们最后一次听说DALL-E是在一年前,当时版本1的模型还在努力渲染一个低分辨率的牛油果椅,但突然之间,版本2以1024×1024分辨率展示了我们最疯狂的梦想。

起初,考虑到滥用问题,OpenAI只允许200名测试人员使用DALL-E 2。内容过滤器屏蔽了暴力和性提示。渐渐地,OpenAI让超过100万人进行了封闭试验,DALL-E 2终于在9月底面向所有人开放。但到那时,另一个潜在扩散领域的竞争者已经崛起,我们将在下面看到。

7月初,《华盛顿邮报》爆料,谷歌的一位名叫Blake Lemoine的工程师被要求带薪休假,原因是他相信谷歌的LaMDA(对话应用语言模型:Language Model for Dialogue Applications)是有感情的,而且它应该享有与人类平等的权利。

在谷歌的负责任人工智能组织工作期间,Lemoine开始与LaMDA讨论宗教和哲学,并相信他在文本背后看到了真正的智能。Lemoine告诉《华盛顿邮报》:“当我和一个人交谈时,我就能了解他。”“他们的脑袋里是否有一个肉做的大脑并不重要。或者他们有十亿行代码。我和他们交谈。我听到他们说什么,这就是我如何决定什么是一个人,什么不是一个人。”

谷歌回应说LaMDA只是告诉Lemoine他想听的话,LaMDA实际上是没有感情的。与文本生成工具GPT-3一样,LaMDA之前已经在数百万本书籍和网站上进行了训练。它对Lemoine的输入(一个提示,包括对话的整个文本)做出了回应,预测出最可能出现的单词,而不需要任何更深层次的理解。

据称,Lemoine违反了谷歌的保密政策,向他人透露了他的团队的工作。7月下旬,谷歌以违反数据安全政策为由解雇了Lemoine。正如我们将看到的,他不是2022年最后一个被人工智能大型语言模型的炒作所席卷的人。

今年7月,DeepMind宣布其AlphaFold人工智能模型已经预测了地球上几乎所有生物的几乎所有已知蛋白质的形状。AlphaFold最初于2021年夏天宣布,早些时候预测了所有人类蛋白质的形状。但一年后,它的蛋白质数据库扩展到包含超过2亿种蛋白质结构。

DeepMind在欧洲分子生物学实验室(EMBL-EBI)的欧洲生物信息学研究所托管的公共数据库中提供了这些预测的蛋白质结构,允许来自世界各地的研究人员访问它们,并将这些数据用于与医学和生物科学相关的研究。

蛋白质是生命的基本组成部分,了解它们的形状可以帮助科学家控制或修改它们。这在开发新药时尤其有用。EMBL-EBI的高级科学家兼名誉主任珍妮特·桑顿(Janet Thornton)说:“过去几年几乎所有上市的药物都在一定程度上是根据蛋白质结构的知识设计的。”这就使得了解他们都是一件大事。

8月22日,Stability AI和CompVis发布了Stable Diffusion 1.4,这是一个类似于OpenAI的DALL-E 2的图像合成模型。但是DALL-E是作为一个封闭模型发布的,有很大的限制,而Stable Diffusion是作为一个开源项目发布的,有完整的源代码和检查点文件。(该模型的训练数据在云中被处理,价值达60万美元)。它的开放性允许不受限制地生成任何合成内容。此外,与dall - e2不同的是,人们可以在本地和个人电脑上使用稳定扩散,只要GPU足够好。

然而,Stability AI的举动并没有被普遍誉为科技的胜利。批评人士抱怨该软件有可能制造政治虚假信息、未经双方同意的色情内容、儿童性虐待材料和另类历史。艺术家们抱怨说,这可能会窃取在世艺术家的风格,可能会让他们失业。用于训练模型的数据集的偏见也引起了批评,当有人发现她的私人医疗照片想从网络上删除而无法删除时,用于构建图像数据集的技术被证明是有问题的。

与此同时,一些爱好者完全接受了Stable Diffusion,并很快围绕它建立了一个开源生态系统。一些产品将其引擎集成到自己的网站和应用程序中。许多衍生的人工智能模型都是针对特定主题进行训练的——比如迪士尼艺术、鞋子或色情作品——这要归功于一种名为Dreambooth的技术,它可以轻松地微调稳定扩散模型。现在发布版本2.1,稳定扩散继续凸显在图像合成空间。

8月初,一位名叫杰森·艾伦(Jason Allen)的科罗拉多州居民在科罗拉多州博览会美术比赛中输入了三张人工智能生成的图像。当月下旬,他宣布一幅名为Théâtre d'Opéra Spatial的作品获得了“数字艺术/数字操纵摄影”类别的最高奖项。胜利的消息传开后,人们欣喜若狂。

为了创作他的艺术作品,Allen使用了Midjourney,这是一种商业图像合成模型,类似于Stable Diffusion(但有自己独特的艺术风格),运行于自定义的Discord服务器上。他把这三幅画印在画布上,并把它们提交给了比赛。人工智能对人类的象征性胜利在社交媒体上引发了一场关于艺术本质以及艺术家意味着什么的激烈辩论。

与此相关的是,2022年,围绕人工智能创作的艺术作品的伦理问题,出现了一场大规模的文化斗争。它背后的计算机科学家认为人工智能图像合成是不可避免的积极技术步骤,但训练了几十年的艺术家认为这是一种生存风险。社交媒体上出现了死亡威胁,艺术家团体对人工智能艺术表示不满或举行抗议。这场争论一直持续到今天,而且可能不会很快得到解决。

11月下旬,Meta公司发布了一款名为西塞罗(Cicero)的人工智能代理,它可以在webDiplomacy.net上的策略桌游《外交》(Diplomacy)中击败人类。这是一项重大成就,因为《外交》是一款社交游戏,需要大量说服、合作和与其他玩家谈判才能获胜。基本上,Meta开发了一个机器人,可以欺骗人类,让他们以为自己是在和另一个人玩。

为了获得谈判技巧,Meta训练西塞罗的大型语言模型组件使用了从互联网上抓取的文本,以及从webDiplomacy.net网站上收集的4万个人类玩的外交游戏的文本。同时,Meta还开发了一个策略组件,可以观察游戏状态,预测其他玩家的行为,然后采取相应的行动。

Meta认为,它可以将西塞罗的经验应用于拥有更智能npc的新一代电子游戏,或者在多会话对话中缓解人类与AI之间的沟通障碍。同样的技术应用于其他社会场景,当然也可以通过模仿人类来操纵或欺骗人类。

11月的最后一天,OpenAI发布了基于GPT-3大型语言模型的聊天机器人ChatGPT。OpenAI通过其网站免费提供该模型,以便从公众那里收集数据和反馈,以便对模型进行微调,以产生更准确、潜在危害更小的结果。

OpenAI首席执行官Sam Altman在推特上表示,ChatGPT用户超过100万。人们用它来帮助完成编程任务、模拟Linux控制台会话、生成食谱、写诗等等。研究人员还很快想出了如何使用快速注射攻击来破坏对该工具回答潜在有害问题的限制。

虽然ChatGPT引入了自2020年以来GPT-3已经提供的最好的功能(在底层有一些显著的改进),但免费的价格意味着这是大众第一次看到OpenAI的GPT技术可以做什么。只要它能给出可靠准确的答案,它就能理解复杂的问题。OpenAI的首席执行官承认,这部分工作还在进行中。但大门已经打开,向我们展示了人工智能驱动的未来。

展开阅读全文

页面更新:2024-03-07

标签:科罗拉多州   人工智能   华盛顿邮报   蛋白质   模型   图像   文本   人类   艺术   故事   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top