大模型时代的危与机丨复旦大学计算机学院教授张奇

张奇,现任复旦大学计算机科学技术学院教授、博士生导师。作为项目负责人承担了国家自然科学基金面上项目、国家自然科学基金重点项目子课题、863高技术发展计划子任务、 国家重点基础研究发展计划(973计划)、上海市教委、上海市科委、校企合作等30余项科研课题。发表论文共70余篇。中国中文信息学会钱伟长中文信息处理科学技术奖--汉王青年创新一等奖等奖项。

“多模态大模型无所不能,使得人类深受震撼,这种模态融合文本、图像、视频或音频等作为输入或输出,满足了人们的多元化需求,不过很多使用者不知晓大模型的几个误区,模型所能到达的水平,以及小模型和大模型在工作流程和任务范式上的区别,有必要做一个简单清晰的梳理,来优化大模型应用效率。”以上分享来自于复旦大学计算机学院教授张奇以《大模型时代的危与机》为主题的演讲。

在本次直播分享中,张奇教授以GPT核心技术、自然语言处理、算力上的不同,剖析了大模型的几个误区,模型的能力,小模型和大模型各自不同的任务范式和优势,并强调了能广泛使用的大模型可以应用的场景,以及如何操作处理的流程,以银行单位为案例,说明大模型还是在经济学和统计学的范畴,为从业者提供新的研究思路以供借鉴。

以下是演讲摘要:

01

大模型的误区与能力

计算机领域相关从业者在面对一些问题时,样本数据集较为庞大,语言模型训练完成后,数据量只会有增无减。

张奇教授表示,“训练大模型是类似于火箭发射的大规模系统工程,像机器互联、模型参数存储等都有许多困难。团队认识的误区会导致大模型能力不足,成本也会有波动。因此,充分认识大模型建模过程中的几个误区十分有必要。”

1. 大模型的几个误区

大模型的任务能力通常需要较高的成本,并不主要依赖涌现,不同任务也会有知识和语言的区别。而且大模型的量级不一定必须满足千亿,人们可以做选择,有些模型任务范围是记录对世界知识的要求,具体量级需要依据情况而定。

张奇认为,在大模型的训练成本方面,通常训练LLM,一个直观的计算尺度是以达到模型预期效果所需消耗的训练token数量为计算总任务需求,结合GPU上训练过程中的token吞吐能力,计算满足要求训练过程中需要多少块GPU,进而推算成本。目前任务实现的前提之一是需要高成本,以提升模型训练效率,所以任务能力也不主要依赖涌现。

同时,也不一定必须使用千亿大模型。人们可以根据任务要求做出选择,比如有些任务集是需要对世界知识有要求。

2、大模型的能力

大模型发展已经很长一段时间,从Facebook发布的百种语言互译的多语言预训练模型M2M-100开始,机器翻译领域实现新突破,Open AI的多模态模型,参数甚至达120亿,图像生成表现优秀,大模型的文本建模能力和任务泛化能力与日俱增。

大模型真正做的事情本质其实就是“文字接龙”,大模型采用了深度学习和自然语言处理技术,并且使用了大量的语料库进行训练 。

同时,现在的一些出色的大模型极大地改变了自然语言处理(NLP)领域,在模型训练中,数据包含互联网的海量无监督数据,用户反馈的信息,也有人们对大量未标记语料库进行的通用预训练,对少量的任务进行特定的微调,这样模型就可以预测人类问题的答案。

02

小模型的工作流程和任务范式

小模型时代的工作流程是甲方提出需求给乙方,产品经理根据需求转换为机器学习问题,研发部门的人进行标注数据,然后建立训练模型,通过模型评测,确定最优化的模型进行部署。由于数据的不同,会产生N个小模型,模型较多。

“如果研发人员一直使用小模型,就面临着一些难点。比如任务开发成本高、时间周期长;相同任务的微小需求变化,需要以30%-70%的重新开发成本,导致无法产品化。并且模型开发和维护的成本较高,而人们还需正视高水平算法研究员稀缺的困境。”张奇说道。

小模型未来可能会由大规模语言模型构建,并且通用能力有所增强,比如阅读理解、情感分析、信息抽取、分类能力等,以满足特定任务需要,达成一个相对最优的结果。

张奇强调,在未来,小模型的任务范式会发生巨大变化。使用自然语言对模型进行训练和使用将较为常见。

03

大模型的优势更胜一筹

小模型在大模型面前可谓是小巫见大巫了,大模型优势明显。大模型有非常少量的算法研究员,新任务可以快速训练,并且不需要模型重新部署,低成本产品化将成为一种趋势。

并且在金融方面,大模型的价值可以被进一步挖掘。大模型可以应用于银行,比如信贷辅助决策部门、公司债业务审核业务部门、智能客服业务部门、企业知识库建设业务部门和科技部门。在自然语音处理方面,相关专业人员可以抽取信息,贴标签,文本解析和做出情感分析,提高工作审核及决策效率。

1、大模型时代 挑战与机遇并存

大模型时代是从单个小任务的研究,转向一类问题统一框架研究,人们面临一些关于“赢者通吃”理念的挑战,不紧跟步伐就会造成代差,并且不容易弥补。

对话交互方式已蔚然成风,先发优势较为明显,用户数据无法获取的情况下,追赶代价更大。不过NLP步入了发展的春天,从手工作坊转向蒸汽机时代,人工智能的Iphone时代就在眼前,大模型发展越来越侧重于精细化发展,比如面向B端私有化部署的“小模型”。

2、NLP研究重点出现迁移

大模型时代的NLP研究重点也有所迁移。比如领域大模型,大模型可控文本生成,大模型隐私,大模型鲁棒性评测与提升,超小规模任务模型构建,大模型推理能力构建等等。

不同的业务类型差别很大,例如大模型的长距离建模能力可以解决歧义问题,大模型的统一任务建模能力可以解决模型数量多,管理难的问题,而大模型的领域和任务泛化能力,可以解决领域迁移的问题。重点是小模型不能解决的问题,大模型可以实现,AIGC即为更加智能化的存在。

3、更优化的大模型处理流程

最后,张奇还提到了,如何进一步实现大模型的自然语言处理问题?这个看似复杂难懂的问题。为更贴合于研发人员的实践需求,张奇教授提出一点意见。从基础语言模型选择方面的要点到任务数据构造,再到类人类回答的函数的选择和训练,帮助研发者理清了发展思路。

本篇文章由对张奇教授在4月9日“未来科技的实现:AIGC、元宇宙和生物技术”主题直播中的演讲整理而生成。该系列主题活动的主办方为清博智能科技公司。

关注清元宇宙公众号,持续获取后续主题演讲内容~

排版:骆伟玲

图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~

展开阅读全文

页面更新:2024-05-18

标签:模型   教授   复旦   自然语言   时代   范式   误区   大学计算机   成本   需求   能力   数据   学院   张奇

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top