人类如何成为了人工智能的“捐赠者”

《华盛顿邮报》近期对一份公共数据进行了分析，这份数据被广泛应用于训练人工智能模型，表明当今的 AI 行业已经从 30 年的网络出版物中广泛采样，以训练他们的神经网络。这反映了一个不可被忽略的事实：人工智能的兴起建立在数据之上，这些数据来自于互联网，而互联网则是由人类所创造的。你是否写过博客？建立过网页？参与过网上的讨论主题？很可能，你的言辞已经为人工智能聊天机器人的教育做出了贡献。

虽然这种大规模的口头再利用触发了一场关于是否应该将其视为公正使用还是盗窃的重要法律分歧，但它也激励着数百万人重新审视自己在建立当今在线世界方面的作用。我们曾以为我们在分享我们的心灵和思想，当然我们确实做到了。但是，我们没有意识到自己也在创造一个不完整但富有表现力的人类表达数据库。正是这个数据库使得 ChatGPT 及其竞品能够进行神奇的句子补全技巧。

由于像 Dall-E、Midjourney 和 Stable Diffusion 等视觉 AI 工具在口头聊天机器人 ChatGPT 开始普及之前就已经变得流行，因此视觉创作者——摄影师、插画家和美术家——是首批面临这种认识的人。音乐家们也遇到了同样的领悟，当他们遭遇越来越多的 AI 生成的作品模拟品时，比如上周发生的 Drake 和 The Weeknd 的“心中所想”，但远比唱歌或画画更多的人会在互联网上输入一些文字。

《华盛顿邮报》的项目允许你输入任何互联网域名，以查看它是否对某个 AI 训练数据库做出了贡献，以及贡献了多少。最终团队发现“数据集包含超过 50 万个个人博客，占数据中总‘标记’或离散语言块的 3.8%”。

需要注意的是，这些训练数据库都是巨大但并不具代表性的。一些文化、群体和主题被过度取样，而其他很多则被不公正地忽略了。互联网文化的所有偏见、限制和有害方面都将出现在 AI 训练数据中。

今天的 AI 突破离不开互联网促使人类产生的数字库存、废弃物、信息、思想和感觉。但我们制造这些东西是为了彼此，而不是为了 AI。从这个角度来看，这些大规模的“语料库”存在是网络崛起本身所带来的一个深刻重要的非预期后果。在1995年，当一代人爱上“www”和浏览器，或者十年后，当另一代人庆祝博客和“群众的智慧”的出现时，这个结果被隐藏起来。到2010年代初，机器学习革命开始出现使得一些有远见的专家感到不安，但需要长时间的观察才能感觉到整个互联网可能即将变成 AI 训练的饲料。

今天，这种非预期后果在我们的在线体验中处于前列——提醒我们，我们正在与 AI 一起做的每件事情都将以我们无法预见的方式塑造未来。

#让AI触手可及##谈谈你对人工智能Chat GPT的看法#

展开阅读全文

页面更新：2024-04-04

标签：人工智能华盛顿邮报在线捐赠者人类机器人口头贡献数据库数据博客

1 2 3 4 5

人类如何成为了人工智能的“捐赠者”

彻底摊牌了？郭台铭露出“真面目”，外媒：富士康被苹果私有化

大咖云集，这场科技盛宴等你赴约！

广义相对论是如何被爱因斯坦构建出来的？

衣宝廉院士丨电解水制氢技术研究进展与发展建议

华为的petal地图更新3.5.0.300了，发现了一个厉害的功能

行业领先优势明显，友商纷纷致敬OPPO双轨潜望结构设计

港股公告掘金 - 数字经济底座一季度业绩超预期，成长逻辑切换连接+算力+数据驱动

四指吃鸡视频曝光，新红魔手机带来更极致游戏体验

苔藓碳氮磷化学计量研究获进展

「新机」真我11Pro+真机曝光星环后置能拍月亮的千元机？

真正意义上的徕卡“手机”，小米13 Ultra到底升级了哪些东西

iPhone 15 顶配或搭载定制 48MP，比上一代更大

告别数码味！小米13 Ultra回归光学惹“众怒”？200g躯壳比肩相机

“疯狂小杨哥”要出海，去TikTok上赚老外的钱

世界互联网大会联合15家单位向联合国提交《全球数字契约》提案

港股公告掘金 - 数字经济底座一季度业绩超预期，成长逻

北京知识产权法院发布涉数据反不正当竞争十大典型案例

第四届联合国世界数据论坛开幕

地球上原本是没有人类的，那么第一个人是如何出现的？

被炎帝和黄帝联手打败的蚩尤，对华夏民族的贡献有多大？

国际物流遭新一轮黑客攻击！你的核心机密数据还在“裸奔

神话对人类发展史研究的影响

沈括的档案文献思想研究：论沈括在档案整理领域的贡献

人工智能物联网迎来大爆发天津有望领跑高质量智能产

哪个关键词与你紧密相关？从一季度经济数据看生活消费