大模型时代的危与机丨复旦大学计算机学院教授张奇

张奇，现任复旦大学计算机科学技术学院教授、博士生导师。作为项目负责人承担了国家自然科学基金面上项目、国家自然科学基金重点项目子课题、863高技术发展计划子任务、国家重点基础研究发展计划（973计划）、上海市教委、上海市科委、校企合作等30余项科研课题。发表论文共70余篇。中国中文信息学会钱伟长中文信息处理科学技术奖--汉王青年创新一等奖等奖项。

“多模态大模型无所不能，使得人类深受震撼，这种模态融合文本、图像、视频或音频等作为输入或输出，满足了人们的多元化需求，不过很多使用者不知晓大模型的几个误区，模型所能到达的水平，以及小模型和大模型在工作流程和任务范式上的区别，有必要做一个简单清晰的梳理，来优化大模型应用效率。”以上分享来自于复旦大学计算机学院教授张奇以《大模型时代的危与机》为主题的演讲。

在本次直播分享中，张奇教授以GPT核心技术、自然语言处理、算力上的不同，剖析了大模型的几个误区，模型的能力，小模型和大模型各自不同的任务范式和优势，并强调了能广泛使用的大模型可以应用的场景，以及如何操作处理的流程，以银行单位为案例，说明大模型还是在经济学和统计学的范畴，为从业者提供新的研究思路以供借鉴。

以下是演讲摘要：

大模型的误区与能力

计算机领域相关从业者在面对一些问题时，样本数据集较为庞大，语言模型训练完成后，数据量只会有增无减。

张奇教授表示，“训练大模型是类似于火箭发射的大规模系统工程，像机器互联、模型参数存储等都有许多困难。团队认识的误区会导致大模型能力不足，成本也会有波动。因此，充分认识大模型建模过程中的几个误区十分有必要。”

1. 大模型的几个误区

大模型的任务能力通常需要较高的成本，并不主要依赖涌现，不同任务也会有知识和语言的区别。而且大模型的量级不一定必须满足千亿，人们可以做选择，有些模型任务范围是记录对世界知识的要求，具体量级需要依据情况而定。

张奇认为，在大模型的训练成本方面，通常训练LLM，一个直观的计算尺度是以达到模型预期效果所需消耗的训练token数量为计算总任务需求，结合GPU上训练过程中的token吞吐能力，计算满足要求训练过程中需要多少块GPU，进而推算成本。目前任务实现的前提之一是需要高成本，以提升模型训练效率，所以任务能力也不主要依赖涌现。

同时，也不一定必须使用千亿大模型。人们可以根据任务要求做出选择，比如有些任务集是需要对世界知识有要求。

2、大模型的能力

大模型发展已经很长一段时间，从Facebook发布的百种语言互译的多语言预训练模型M2M-100开始，机器翻译领域实现新突破，Open AI的多模态模型，参数甚至达120亿，图像生成表现优秀，大模型的文本建模能力和任务泛化能力与日俱增。

大模型真正做的事情本质其实就是“文字接龙”，大模型采用了深度学习和自然语言处理技术，并且使用了大量的语料库进行训练。

同时，现在的一些出色的大模型极大地改变了自然语言处理（NLP）领域，在模型训练中，数据包含互联网的海量无监督数据，用户反馈的信息，也有人们对大量未标记语料库进行的通用预训练，对少量的任务进行特定的微调，这样模型就可以预测人类问题的答案。

小模型的工作流程和任务范式

小模型时代的工作流程是甲方提出需求给乙方，产品经理根据需求转换为机器学习问题，研发部门的人进行标注数据，然后建立训练模型，通过模型评测，确定最优化的模型进行部署。由于数据的不同，会产生N个小模型，模型较多。

“如果研发人员一直使用小模型，就面临着一些难点。比如任务开发成本高、时间周期长；相同任务的微小需求变化，需要以30%-70%的重新开发成本，导致无法产品化。并且模型开发和维护的成本较高，而人们还需正视高水平算法研究员稀缺的困境。”张奇说道。

小模型未来可能会由大规模语言模型构建，并且通用能力有所增强，比如阅读理解、情感分析、信息抽取、分类能力等，以满足特定任务需要，达成一个相对最优的结果。

张奇强调，在未来，小模型的任务范式会发生巨大变化。使用自然语言对模型进行训练和使用将较为常见。

大模型的优势更胜一筹

小模型在大模型面前可谓是小巫见大巫了，大模型优势明显。大模型有非常少量的算法研究员，新任务可以快速训练，并且不需要模型重新部署，低成本产品化将成为一种趋势。

并且在金融方面，大模型的价值可以被进一步挖掘。大模型可以应用于银行，比如信贷辅助决策部门、公司债业务审核业务部门、智能客服业务部门、企业知识库建设业务部门和科技部门。在自然语音处理方面，相关专业人员可以抽取信息，贴标签，文本解析和做出情感分析，提高工作审核及决策效率。

1、大模型时代挑战与机遇并存

大模型时代是从单个小任务的研究，转向一类问题统一框架研究，人们面临一些关于“赢者通吃”理念的挑战，不紧跟步伐就会造成代差，并且不容易弥补。

对话交互方式已蔚然成风，先发优势较为明显，用户数据无法获取的情况下，追赶代价更大。不过NLP步入了发展的春天，从手工作坊转向蒸汽机时代，人工智能的Iphone时代就在眼前，大模型发展越来越侧重于精细化发展，比如面向B端私有化部署的“小模型”。

2、NLP研究重点出现迁移

大模型时代的NLP研究重点也有所迁移。比如领域大模型，大模型可控文本生成，大模型隐私，大模型鲁棒性评测与提升，超小规模任务模型构建，大模型推理能力构建等等。

不同的业务类型差别很大，例如大模型的长距离建模能力可以解决歧义问题，大模型的统一任务建模能力可以解决模型数量多，管理难的问题，而大模型的领域和任务泛化能力，可以解决领域迁移的问题。重点是小模型不能解决的问题，大模型可以实现，AIGC即为更加智能化的存在。

3、更优化的大模型处理流程

最后，张奇还提到了，如何进一步实现大模型的自然语言处理问题？这个看似复杂难懂的问题。为更贴合于研发人员的实践需求，张奇教授提出一点意见。从基础语言模型选择方面的要点到任务数据构造，再到类人类回答的函数的选择和训练，帮助研发者理清了发展思路。

本篇文章由对张奇教授在4月9日“未来科技的实现：AIGC、元宇宙和生物技术”主题直播中的演讲整理而生成。该系列主题活动的主办方为清博智能科技公司。

关注清元宇宙公众号，持续获取后续主题演讲内容~

排版：骆伟玲

图片源于Q仔互联网冲浪所得，若有侵权，后台联系，Q仔滑跪删除~

展开阅读全文

页面更新：2024-05-18

标签：模型教授复旦自然语言时代范式误区大学计算机成本需求能力数据学院张奇

1 2 3 4 5

大模型时代的危与机丨复旦大学计算机学院教授张奇

复活节彩蛋？苹果Mac电脑中惊现比特币白皮书

小爱同学接入Chat gpt，让小爱越来越智能

重磅突破 : 充电仅需18秒！锌离子电池材料问世！

大外屏设计成潮流？Find N2 Flip率先适配，开拓趣味卡片功能

为什么今年程序员都说找不到工作？市场到底怎么了？

AI“入侵”CG？制作全流程一键搞定，随时随地生成高品质吸睛大片

京东方A分析报告：全球面板龙头有望率先受益行业反转

国家发改委：加快实施公共领域车辆全面电动化先行区试点

观点 3年有一些品牌会被淘汰

淄博烧烤带火隔壁得利斯？公司去年30亿营收只换来3000万净利

一场空前的“债务反击战”，打响了！

改革开放、高质量发展，保税区域在"离世界最近的地方"创造奇迹

2023上海车展-文远知行张冬冬：高阶智能驾驶产品今年量产落地

广交会万商云集，参会外商怎么说？

昌平永旺梦乐城6月撤店外资企业如何站稳北京市场

想吃蛋糕不用排队买，告诉你配方自己做，成本才几块钱！

厘清公共数据授权运营：定位与内涵

工具推荐-信用卡、用户测试数据生成

国产WPS AI 真的来了，比ChatGPT更适合办公，更懂国人工作

为尼泊尔培养电商人才尼泊尔电商直播学院在义乌成立

V观财报｜生产成本上升！中顺洁柔2022年净利润减少近四成

国网株洲供电公司：精心改造变电站提高供电能力

日输气能力达6810万立方米！双台子储气库双向输气管道工

遍布成瘾陷阱的商业时代，如何让自己更幸福

五一出游需求爆发，淄博、徐州、恩施等新兴目的地加速