大模型开源生态加速形成,金融大模型走在路径选择“分叉口”

21世纪经济报道记者李览青 上海报道

在软件开发领域,每当一项新技术横空出世,“开源”和“闭源”,是摆在大厂面前的两条技术路径。

大模型时代亦是如此。开源降低了数据处理与技术开发的门槛降低,但更高投入、更为封闭的闭源模型往往能带来更好、更专业的开发效果。

在今年大模型浪潮中,据21世纪经济报道记者了解,在金融机构探索大模型技术的过程中,都尝试基于已有的大模型开源框架再进行指令微调,以快速实现任务部署,但在生成式AI监管与数据安全保护趋严的背景下,也遇到多方问题。而自主研发的大模型需要的巨额投入往往令人望而却步。

在国内正式对外发布的金融大模型中,除了度小满“轩辕”金融大模型,其他金融大模型全部是闭源大模型。而在通用大模型领域,大厂、创业机构、学界的开源大模型生态在加速形成。

对于金融大模型而言,开源与闭源技术路径如何选择?

“Llama2时代”落幕?

“Llama2作为一个开源模型的时代已经过去了。”9月,百川智能宣布开源升级微调后的Baichuan2大模型,其创始人王小川表示。

Llama2的开源可商用掀起了今年年中大模型应用开发的浪潮。

今年7月,几乎在同一日,有两则来自大厂的消息加速了大模型及应用商业化落地:一个是微软宣布Microsoft 365 Copilot定价,这一“GPT版”Office的全面商用将微软股价推升至历史新高;另一个则是Meta宣布免费将旗下大模型Llama2提供给微软Azure云计算平台上的软件开发者。

“虽然二级市场可能对微软定价公布很激动,但对于大多数开发者对Llama2的开源可商用更兴奋。”彼时,一位投资分析人士向记者表示,这意味着大模型应用进入“免费时代”。

但由于Llama2的中文训练语料不足,其在中文问题上表现仍有缺陷,更重要的是,Llama2的商用协议声明“仅适用于英文为主的环境”,这意味着基于Llama2的中文商用大模型拿不到开源协议。

如今国内大模型开源生态正在加速形成,从代码大模型开源、通用大模型开源到垂直行业大模型开源,覆盖大模型全产业链。

通用大模型方面,除了Baichuan2,阿里云通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat已正式宣布开源,上海人工智能实验室联合商汤科技、复旦大学、香港中文大学推出的“书生·浦语”(InternLM)大模型也已实现开源。

代码大模型领域,蚂蚁集团在外滩大会上宣布开源代码大模型CodeFuse。

在金融领域,今年5月,度小满宣布开源国内首个千亿参数的金融大模型“轩辕”,9月22日,度小满宣布将升级后的“轩辕70B”金融大模型开源,同步在社区开源50G高质量金融语料。据度小满CTO许东亮公开表示,在增量预训练和指令微调阶段,金融数据有所增加,在预训练阶段,模型上下文长度扩充到8k,能够处理更长的金融报告、研究和分析。

技术普惠与开发共创

源代码开放与信息共享,推动了移动互联网的“安卓时刻”。

谷歌是开源生态的一大受益者,正是安卓系统的开源使得众多开发者涌入谷歌体系进行应用开发,帮助安卓系统打败除苹果以外的众多手机厂商,拿下市场大半江山。

而开源生态的加速形成也被视为大模型时代“安卓时刻”的来临,对于机构探索金融大模型而言,开源模型的价值在于降本增效。

“可以说通用开源大模型是技术底座,可以用的我们都尝试过了,哪个好用就用哪个,选好大模型基座以后加上金融语料做预训练,然后在场景实现落地。”有金融机构科技部门负责人表示,其落地场景下的大模型应用主要是基于开源大模型。

据记者了解,在生成式人工智能监管趋严之前,上半年金融机构主要尝试接入的金融大模型是彭博的BloombergGPT与开源的金融大模型FinGPT,同时也探索了通用大模型在金融垂直领域的微调与预训练。

浙商证券金融工程分析团队在一份研报中指出,与闭源的BloombergGPT相比,FinGPT有训练成本低、数据与模型平民化、端到端系统架构等三个优势。

一方面,金融行业是高度动态的,信息和数据以较高频率更新。BloombergGPT 的定期训练成本非常昂贵,因此轻量级适应在金融领域非常有利。FinGPT 可以快速微调以与新数据保持一致,而不是随着金融环境的每一次重大变化从头开始重新训练模型,估算每次训练不到300 美元。

其次,BloombergGPT需要特权数据访问与API接口,而通过FinGPT可以优先考虑模型的轻量和适应性,仅需基于开源大模型输入金融数据进行微调。

最后从系统架构来看,FinGPT的“数据源层、数据工程层、大语言模型层、应用层”系统框架实现了从信息端到投资端的全流程应用。

但在基于开源大模型训练过程中,除了算力,最为突出的问题是高质量数据。“当数据量到达一个程度,大模型确实能够实现能力的涌现,但首先要有这些优质数据。”一位基金信息科技部负责人坦言,在开发侧,要让代码生成可用,需要超过30个优质金融项目代码,但很多机构很难做到。

在这一背景下,对于大厂而言,通过开源可以通过开发者实现技术的共创与变革。在宣布代码大模型“Codefuse”开源时,支付宝小程序云负责人李铮表示,只有将整个技术开源,与社区对接,让更多人使用它,才能解决整个软件研发领域各个环节的问题。“整个代码大模型还在初步阶段,写代码是没有问题的,而且整体能力还在不断提升,但真正解决软件工程问题还有很长的路要走,我们抱着开放的心态与大家共同提升。”

监管趋严下的路径探索

在《生成式人工智能服务管理办法》出台后,传统金融机构对境外开源大模型的使用愈发谨慎,逐步转向基于境内开源大模型应用。

有采访对象向记者提到,短期内用Llama2或者BloombergGPT可以部署一些简单的小任务,但再往前走,还是需要训练自己的基础模型,或者采用符合国内监管标准的大模型。

据记者调研,目前金融机构的选择路径包括两个方面,一种是与大模型厂商联合共创,私有化部署基于金融大模型的模块应用;另一种是接入金融大模型产品,实现部分业务的智能化工具应用。

一位大行云计算方面专家提到,据其走访发现,一线开发人员在实际编码工作中的痛点主要有三个方面。首先,对于不熟悉编码模式、规范的新员工而言,在不知道如何实现代码编码时,缺乏优质、可复用的标准代码作为提示。其次,在开发出现问题时,由于行内研发环境与互联网环境不互通,开发人员无法及时查找到标准参考案例与相应解决方案。此外,开发人员还会面临复杂度较高、耗时较长的问题,部分老旧代码由于缺少注释,维护也比较困难。

因此该行在内部启动智能研发建设,将代码推演预测、代码自动生成、代码检索复用等企业及能力用IDE插件形式进行整合,逐步在开发中心内部推广。“GPT-4技术带来了大量编码阶段的交互式辅助编程能力,未来将颠覆编码体验。”他表示,由于行内信息安全要求,该行基于联合创新机制在探索新的大模型能力。

应用接入层面,据公开信息显示,度小满开源的“轩辕”金融大模型已有上百家金融机构申请试用;9月25日,恒生电子宣布已面向20家金融机构开启金融大模型“LightGPT”内测;而蚂蚁集团向B端金融机构痛的AI业务助手“支小助”也已与合作机构开启内测共建。

更多内容请下载21财经APP

展开阅读全文

页面更新:2024-05-13

标签:模型   轩辕   金融   小满   微软   金融机构   路径   生态   领域   代码   数据   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top