「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

大纲

一、大语言模型的细节

transformer 与 LLM

1.1 模型结构

1.2 训练目标

1.3 tokenizer

1.4 位置编码

1.5 层归一化

1.6 激活函数

1.7 Multi-query Attention 与 Grouped-query Attention

1.8 并行 transformer block

1.9 总结-训练稳定性

二、LLM 的分布式预训练

点对点通信与集体通信

2.1 数据并行

2.2 张量并行

2.3 流水线并行

2.4 3D 并行

2.5 混合精度训练

2.6 激活重计算

2.7 ZeRO，零冗余优化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

三、LLM 的参数高效微调

为什么进行参数高效微调？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 实验比较

展开阅读全文

页面更新：2024-04-28

标签：张量模型高效冗余人工智能分布式流水线精度大纲细节原理主流参数语言通信

1 2 3 4 5

《青岛的珍稀候鸟》科普短视频首发，市南区激发青少年科学兴趣

9月13日，青岛市市南区科协在青岛宁夏路小学举办《青岛的珍稀候鸟》科普短视频首发式活动。这是为庆祝第二十个全国科普日举办的系列活动之一。市南区科协党组成员、副主席高向兵，青岛宁夏路小学校长丁吉鹏等嘉宾出席活

“克隆羊之父”逝世

【来源：株洲晚报数字版_株洲晚报】英国爱丁堡大学11日发布讣告说，“克隆羊之父”、著名胚胎学和再生医学专家伊恩·威尔穆特因病于10日去世，享年79岁。威尔穆特在罗斯林研究所领导的团队于1996年培育出世界上第一只体细

Redmi：K60至尊版销量突破60万台全网首销月冠军

【手机中国新闻】近日，手机中国注意到，小米官方和Redmi品牌表示，它们旗下最新旗舰手机K60至尊版在全网新品首销月中销量突破60万台，荣获2023年全网新品首销月销量冠军。同时，这款手机在京东平台的好评率高达99%，并在天猫手

和评理｜加强人工智能监管，中美合作才是可取之道

来源:中国日报网人工智能（AI）的崛起可能引发的潜在威胁已绝非虚言。ChatGPT的发布，证明了人工智能技术的快速演进，也同样引发许多人的深思。自其去年11月发布以来，科技巨头们已争相加入大语言模型开发之战。放任人工智能技

南天信息于济南投资设立新公司，含多项AI业务

天眼查APP显示，近日，南天数金（济南）信息科技有限公司成立，注册资本1000万元，经营范围包含：人工智能应用软件开发；人工智能基础资源与技术平台；人工智能公共服务平台技术咨询服务；物联网技术研发等。天眼查股权穿透显示，该公司由

为打造全球生物医药高地添砖加瓦，这两个生物医药项目建设又有新进展

点击上方“中国上海自贸试验区”可订阅！“中国上海自贸试验区”是上海自贸区管理委员会唯一认证的官方公众号，在这里，您可以得到最权威、最全面、最及时的上海自贸区各类信息，添加关注获得更多资讯。位于张江的君实生物全

西媒：太阳系探索计划展现中国太空雄心

来源:参考消息网参考消息网9月14日报道据西班牙《阿贝赛报》网站9月9日报道，显而易见，中国的太空雄心远不止于地球。事实上，这个亚洲巨人希望成为第一个在太阳系建立永久存在的国家，并为此制定了一项长期计划，内容涉及对围

京东云联合重庆机场打造行业首个问询服务数字人，助力民航业数字化服务升级

近日，2023中国国际智能产业博览会在重庆圆满闭幕。京东云联合重庆机场集团打造民航业首个超写实问询服务数字人亮相本次智博会，成为本次智博会一大吸睛点。重庆机场问询服务数字人是由京东云根据重庆机场集团“服务明星

张一鸣定调：抖音发力长视频

抖音加码创作者激励一场巨变正在悄悄酝酿。9月初，抖音将旗下中长视频APP“青桃”正式更名为“抖音精选”，各项互动数据与抖音本体全面打通。刚刚召开的抖音创作者大会上，抖音方面宣布将加强对图文内容和中长视频的激励，在

广州枢纽台及广州白云站京广场新站型顺利启用

南都讯 9月13日凌晨3点30分，经过350余名参建员工210分钟接续作业，广州白云站枢纽工程广州枢纽台及广州白云站京广场新站型顺利启用，为广州白云站高质量开通运营奠定坚实基础。开通合影。此次站改施工涉及广州站、棠溪站

苏州首家！吴中区启用心血管风险AI评估新技术

“感谢医院采用新技术，及时发现我的健康风险。真格好格，希望这项检查能够帮助更多人，挽救更多生命！”近日，苏州市吴中区光福人民医院收到了市民柴先生的感谢信。今年8月，柴先生听说光福人民医院启用了人工智能化心血管风险

青岛优化人才发展环境着力提升人才服务质效

假期车票秒光？12306回应

9月14日，中秋假期临近，不少网友提前加入抢票大军，开始抢购9月28日的火车票。抢购过程中，有网友吐槽系统显示余票充足，但是仍需排队购买，“前方排队711人”；还有网友质疑，第三方软件抢票是不是占了普通用户的“坑位”。对此，123

2023服贸会｜数字化转型如何成为企业“必修课”

9月5日，由北京市通信管理局、工业和信息化部新闻宣传中心联合主办的“企业数字化转型论坛”在2023中国国际服务贸易交易会期间召开。论坛聚焦“数字化引领高质量发展”主题，旨在探讨信息技术如何与各行业深度融合，构建

纷纷点赞！这场活动上究竟发生了什么？

【来源：江西晨报】为激发少年儿童“学科学、爱科学、用科学”的热情，让孩子们提升科学素养，9月13日，2023年南昌市全国科普日分会场活动“科普奇妙秀”在九洲天虹商场顺利开展，为孩子们送上一场丰富的科学“盛宴”，现场的少

上滑加载更多 ↓

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

大纲

一、大语言模型的细节

二、LLM 的分布式预训练

《青岛的珍稀候鸟》科普短视频首发，市南区激发青少年科学兴趣

“克隆羊之父”逝世

Redmi：K60至尊版销量突破60万台全网首销月冠军

和评理｜加强人工智能监管，中美合作才是可取之道

南天信息于济南投资设立新公司，含多项AI业务

为打造全球生物医药高地添砖加瓦，这两个生物医药项目建设又有新进展

西媒：太阳系探索计划展现中国太空雄心

京东云联合重庆机场打造行业首个问询服务数字人，助力民航业数字化服务升级

张一鸣定调：抖音发力长视频

广州枢纽台及广州白云站京广场新站型顺利启用

苏州首家！吴中区启用心血管风险AI评估新技术

青岛优化人才发展环境着力提升人才服务质效

假期车票秒光？12306回应

2023服贸会｜数字化转型如何成为企业“必修课”

纷纷点赞！这场活动上究竟发生了什么？

和评理｜加强人工智能监管，中美合作才是可取之道

达产年产值超3亿元，中电微通微波通信设备生产基地结构

济南市首个！历下区人工智能教育示范中心启动

人工智能时代，网络安全常识请查收

山东移动临沂分公司顺利完成2023中国临沂智慧生活产业

三旺通信：正推进HaaS平台解决方案在各行业场景下的应用

阿联酋：建设人工智能国家，网络安全是关键

淘宝问问开启内测，淘宝大模型人工智能应用来了

革命性技术突破引发热议人工智能应用前景广阔

基于视频的人工智能在胸腔镜肺癌肺叶切除术中的应用