开源共赢!京企发布新一代开源大模型

北京日报客户端 | 记者 孙奇茹

9月6日,在北京市科委、中关村管委会,海淀区政府指导下,北京人工智能企业百川智能召开主题为“百川汇海,开源共赢”的大模型发布会。百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat,并且均为免费可商用。公司创始人兼CEO王小川在会上表示,其70亿参数模型在英文评测级上,能够做到“以小博大”。

今年7月,国际互联网巨头Meta发布LLaMA2,并很快被业界认可为全球范围内最强的开源大模型,甚至有人预言其将改变大模型发展的终局。然而,以LLaMA2为代表的开源大模型大多支持英文等西方语言,对中文的支持往往不够友好。据悉,百川本次开源的模型给予中文、英文、西班牙语、法语等数十种语言的预料进行训练,在几大权威评估基准中,性能大幅度优于LLaMA2等同尺寸模型。

不久前,首批8家大模型通过《生成式人工智能服务管理暂行办法》备案,其中5家为京企研发的大模型。“继成为本市首批完成备案上市的大模型之后,百川智能向全行业开源新一代大模型,冲击大模型开源领域的世界领先地位,将有助于建立起我国自主可控的开源大模型生态,推动大模型在各行各业的应用与落地。”北京市科委、中关村管委会二级巡视员刘航说。

大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入,从零到一完整训练一个模型的高昂成本,阻碍了学术界对大模型训练的深入研究。当前,大部分开源模型在开源过程中只是对外公开自身的模型权重,很少提及训练细节,企业、研究机构、开发者们只能在开源模型的基础上做有限的微调,很难进行深入研究。

为更好地推动大模型社区的技术发展,百川智能此次开源了模型训练的Check Point(模型切片),其发布了Baichuan2技术报告,详细介绍了训练细节,帮助大模型学术机构、开发者和企业用户更深入地了解其训练过程,更好地推动大模型学术研究和社区的技术发展。业界人士分析,开源训练模型过程对国内开源生态尚属首次,这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等方面极具价值,将极大推动国内大模型的科研进展。

展开阅读全文

页面更新:2024-05-01

标签:模型   中关村   科委   北京市   英文   人工智能   管委会   新一代   开发者   过程   智能

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top