Meta的大语言AI模型意外泄露，掀起一系列ChatGPT替代品创新！

使用 Midjourney 创建

LLama效应：一次意外的泄漏如何引发了一系列令人印象深刻的ChatGPT的开源替代品

开源和基于API的分发之间的摩擦是生成式人工智能生态系统中最有趣的战斗之一。在文本到图像领域，Stable Diffusion的发布清楚地表明开源是基础模型可行的分发机制之一。然而，在大语言模型（LLM）领域，最重要的突破来自GPT-4、Claude和Cohere等模型，这些模型仅通过API提供。这些模型的开源替代品在遵循人类指令方面没有展现出同样水平的性能。然而，一个意外的研究突破和泄露版本正在改变这种情况。

几周前，Meta AI宣布了Llama，一个旨在推进该领域研究的LLM。Llama发布了不同的版本，包括7B、13B、33B和65B的参数，尽管比其他模型小，但在许多任务中能够与GPT-3的性能相匹配。Llama最初没有开源，但在其发布一周后，该模型在4chan上被泄露，引发了成千上万的下载。

在过去的几周里，本来可以被看作是一个不幸的事件，却成为LLM领域最有趣的创新来源之一。自从Llama被泄露后，我们看到了建立在它之上的LLM代理的爆炸性创新。仅举几个例子：斯坦福大学发布了Alpaca(https://crfm.stanford.edu/2023/03/13/alpaca.html)，一个基于LLama 7B模型的指令跟随模型。

来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的研究人员公开了Vicuna，这是一个微调的LLama版本，与GPT-4性能相匹配(https://vicuna.lmsys.org/)。
伯克利人工智能研究所（BAIR）发布了Koala，一个使用互联网对话进行微调的LLama版本(https://bair.berkeley.edu/blog/2023/04/03/koala/)。
Nebuly开源了ChatLLama，这是一个使用你自己的数据创建对话助理的框架(https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama)。
FreedomGPT是一个基于Alpaca的开源对话代理，它是基于LLama的(https://freedomgpt.com/)。
来自加州大学伯克利分校的Colossal-AI项目发布了ColossalChat，这是一个ChatGPT类型的模型，有一个基于LLama的完整RLHF管道(https://medium.com/@yangyou_berkeley/colossalchat-an-open-source-solution-for-cloning-chatgpt-with-a-complete-rlhf-pipeline-5edf08fb538b)。

在这个列表中，还有几个项目值得一提，我相信很快会有更多的项目发布。有一件事是肯定的：Llama的意外泄露可能变成了开源LLM领域最大的创新火花之一。

ML研究

OpenAI的安全性

OpenAI发表了一篇详细的博文，概述了用于确保其模型安全的一些原则。该文章强调了隐私、事实准确性和有害内容的预防等方面，这对基础模型的广泛采用至关重要(https://openai.com/blog/our-approach-to-ai-safety)。

BloombergGPT

彭博社发表了一篇论文，介绍了BloombergGPT，一个在金融数据中微调的500亿LLM。该模型以BLOOM为基础，在3630亿个token数据集上进行了微调(https://www.bloomberg.com/company/press/bloomberggpt-50-billion-parameter-llm-tuned-finance/)。

任何细分市场

Meta AI发表了一篇论文，概述了Segment Anything Model（SAM），一个用于图像分割的大规模模型。该模型与Segment Anything 1-Billion mask dataset（SA-1B）一起开源，SA-1B是有史以来发布的最大的计算机视觉分割模型(https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/)。

Koala

伯克利人工智能研究中心（BAIR）发布了一篇论文，详细介绍了Koala，一个为学术研究微调的对话模型。该模型以Meta AI的Llama为基础，与ChatGPT的性能相匹配(https://bair.berkeley.edu/blog/2023/04/03/koala/)。

用于超参数优化的BayesOpt

谷歌研究院发表了一篇论文，将超参数优化建模为Bayesian优化问题。该论文提出了Hyper BayesOpt，一种超参数优化算法，在BayesOpt中不再需要量化高斯过程的模型参数(https://ai.googleblog.com/2023/04/pre-trained-gaussian-processes-for.html)。

很酷的人工智能技术发布

Vicuna

Vicuna是一个基于Meta AI Llama的开源聊天机器人，与ChatGPT的质量相匹配(https://vicuna.lmsys.org/)。

ColossalChat

Colossal-AI项目的团队开源了ColossalChat，这是ChatGPT的一个开源克隆版本，具有RLHF功能（https://medium.com/@yangyou_berkeley/colossalchat-an-open-source-solution-for-cloning-chatgpt-with-a-complete-rlhf-pipeline-5edf08fb538b）。

真实世界的ML

LinkedIn的生成性人工智能

Linkedin讨论了一些构建生成式人工智能应用的经验教训和最佳实践（https://engineering.linkedin.com/blog/2023/our-learnings-from-the-early-days-of-generative-ai）。

Lyft的建议

Lyft讨论了在他们的推荐系统中使用的ML模型和架构（https://eng.lyft.com/the-recommendation-system-at-lyft-67bc9dcc1793）。

AI Radar

AI传奇人物Andrew Ng和Yann LeCun录制了一个会议，表达了他们对AI暂停提案的反对意见。

Quantexa为其基于人工智能的金融欺诈预防平台融资1.29亿美元。

Adthos推出了其使用生成性人工智能创建音频广告的平台。

Meta公司讨论了他们使用生成性人工智能来创建广告的举措。

机器人公司Covariant又筹集了7500万美元。

人工智能搜索公司Glean将生成性人工智能功能纳入其搜索平台。

一些泄露的文件显示，OpenAI的竞争对手Anthropic打算在未来两年内筹集约50亿美元。

展开阅读全文

页面更新：2024-04-03

标签：斯坦福大学模型人工智能替代品分校意外性能参数领域语言版本基础系列论文

1 2 3 4 5

Meta的大语言AI模型意外泄露，掀起一系列ChatGPT替代品创新！

全民皆“师”！5.3亿人在为知识付费（1）

微信违反互联网相关政策怎么解封？

未来7年，这4种“资产”会越来越值钱！看看你家有没有

iPhone15 Pro Max外形曝光，价格或超20000元？

碳纤维复合材料的电磁特性，对现代无线电发展带来的变革

缅甸商贸部公布最新矿产出口数据

车价降了，车险会跟着降吗

特斯拉降价后市值大跌2700亿：“以价换量”策略行得通吗？

舍得酒业经销商大会：复星释放与舍得深绑定信号，郭广昌现身

中信证券：预计白酒龙头企业会通过控货挺价、加强费用落地管理等方式推动终端动销及渠道利润优化

昆明将举办首届“直播电商创业大赛”

汉能系9家经营主体统一破产清算，中国前首富李河君“失联”，身家曾达1600亿

济南买房，现在出手就是高！

为中小企业融资赋能广东省“专精特新”股权融资对接行动走进惠州

江西赣县区：开足马力加快项目建设

东风股份：2022年营收37.44亿元加速转型新能源新材料领

4K价位最香旗舰：性能跑分129万+潜望式长焦，媲美行业Pro

带你揭开神秘的 javascript AST 面纱之AST 基础与功能

茅台招经销商条件意外流出，门槛吓退众人，网友：这辈子没希

CVPR 2023｜首个多模态DeepFake检测定位模型：让AIGC伪造

一篇论文有15025名合著者！“超级团队”会带来超级引用

iphone15系列最全爆料，这个比较真实

意外！高洪波刚主政足协就点燃第一把火，马宁因此腰杆子更

第一时间测试：通义千问和文心一言，在医疗领域的表现太差

传英伟达Blackwell架构GPU性能翻倍：采用3nm工艺，延续单