主流大语言模型的技术原理细节

作者：spring

1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节：tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术：数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。3. 大语言模型的参数高效微调技术：prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大纲

1. 大语言模型的细节

1.0 transformer 与 LLM

1.1 模型结构

1.2 训练目标

1.3 tokenizer

1.4 位置编码

1.5 层归一化

1.6 激活函数

1.7 Multi-query Attention 与 Grouped-query Attention

1.8 并行 transformer block

1.9 总结-训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信

2.1 数据并行

2.2 张量并行

2.3 流水线并行

2.4 3D 并行

2.5 混合精度训练

2.6 激活重计算

2.7 ZeRO，零冗余优化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 实验比较

4. 参考文献

分析 transformer 模型的参数量、计算量、中间激活、KV cache
【万字长文】LLaMA, ChatGLM, BLOOM 的高效参数微调实践
FlashAttention:加速计算,节省显存, IO 感知的精确注意力

展开阅读全文

页面更新：2024-05-16

标签：张量模型语言高效冗余技术分布式流水线精度细节原理主流参数

新华全媒+-科技赋能助推文化产业发展

当前，新一轮科技革命和产业变革深入发展，正推动数字技术与文化产业深度融合，视频直播、电子竞技、数字文博等新兴数字文化业态不断涌现。在数字化浪潮中，如何培育新型文化业态和文化消费模式，推动文化产业高质量发展，让百姓

深融十年智驱未来丨复旦大学新闻学院院长张涛甫：中国传统主流媒体如何在全球化舆论场上成为主力军？

来源：【四川日报-川观新闻】川观新闻记者钟帆摄影向宇在当下媒体融合的时代浪潮中，中国传统主流媒体如何在全球化舆论场上成为主力军，讲好中国故事、传播好中国声音？9月15日，在“深融十年智驱未来”2023新型主流媒体建

神“计”妙“算”助力中国社会高质量发展

这是9月15日拍摄的2023世界计算大会场馆外景。新华社记者陈泽国摄新华社长沙9月15日电题：神“计”妙“算”助力中国社会高质量发展新华社记者谈昦玄、阮周围、马逍然机器人成为健康管理师，人们足不出户就可在家诊断小

美航天局报告：“不明航空现象”研究需更科学

新华社北京9月15日电美国国家航空航天局（NASA）14日发布报告说，其“不明航空现象(UAP)”独立研究团队在研究了人们报告的数百起相关事件后，认为尚未发现“不明航空现象”与外星人有关，解开其中的谜题需要更先进的技术手段

YOLOv5无GPU优化182.4FPSCPU推理

推荐：用 NSDT编辑器快速搭建可编程3D场景经过几个月的寻找，你终于找到了。唯一可以正常工作的对象检测库。没有安装麻烦，没有软件包版本不匹配，也没有 CUDA 错误。我说的是 Ultralytics 精心设计的 YOLOv5 目标检测库。

网攻西工大的黑客身份被锁定，“间谍软件”是关键！

近日，国家计算机病毒应急处理中心和360公司对一款名为“二次约会”的间谍软件进行了技术分析，分析报告显示，该软件是美国国家安全局（NSA）开发的网络间谍武器。据了解，在国家计算机病毒应急处理中心会同360公司配合侦办西北

2023年浦江创新论坛之未来（科学）论坛：脑机接口将为智能康复贡献力量

9月11日下午，2023浦江创新论坛之“未来（科学）论坛：脑科学的数字化转型”成功在上海东郊宾馆会议中心举行。多位脑科学研究领域的国际领军人物分享了他们的最新研究成果，以及他们对大脑工作机制及脑科学数字化技术的重要见

揭榜挂帅推动未来产业创新

揭榜挂帅，推动未来产业创新在近期举行的2023中国国际数字经济博览会现场，各种机器人产品亮相展区，吸引观众驻足感受科技魅力。图为参观者在博览会上与人形机器人握手。新华社记者骆学峰摄日前，工业和信息化部印发通知，组

深空探测公布新规划，探月探日再进一步

第十届航天技术创新国际会议正在上海举行，航天专家表示，我国正在迈入月球探索与开发的新时代，相关研究已经启动。同时探日卫星“羲和二号”正在论证，计划开启我国太阳立体探测时代。中国科学院相关专家表示，在“羲和号”卫

新型新冠变异株还会广泛传播吗？

参考消息网9月15日报道据美国《大西洋》月刊网站8月29日报道，自2021年奥密克戎变异株席卷全球以来，新冠病毒的进化速度变慢且更可预测。待观察的新变异株不断出现又消失，但没有一个能与奥密克戎变异株的30多个突变和凶

科技创新赋予文化发展崭新动能

9月15日，百余位中外嘉宾在“科技赋能：发展机遇与风险应对”平行论坛上，围绕“科技创新塑造文化发展新动能”主题，深入探讨推动文化产业高质量发展的新思路。中国国际经济交流中心副理事长、国务院发展研究中心原副主任王

如何为乡村振兴注入新活力？南京审计大学吕超：充分利用全域兴趣电商优势和机遇

交汇点讯作为一种全新商业图景，全域兴趣电商等电商新模式已成为推动国内产业带转型升级的重要助推力量。那么实践中，全域兴趣电商如何为乡村振兴注入新活力？农产品产业带又怎样利用全域兴趣电商优势推动创新和发展？9月15

美国一架客机起飞后遭遇故障返航途中10分钟内下降8000多米

海外网9月15日电据美国福克斯新闻9月14日报道，美国联合航空公司一架飞往意大利罗马的客机，在起飞后遭遇机舱增压问题紧急返航。美国联邦航空管理局的一名发言人表示，当地时间9月13日晚，这架波音777飞机正飞往罗马菲乌米

“AI教师”圈粉无数，也要避免其越位

□郭元鹏随着人工智能技术快速发展，“AI教师”“虚拟教师”等逐渐成为现实，走进中小学课堂。在多种信息技术的综合作用下，“AI教师”可以更为精准、高效地开展教学工作，为学生答疑解惑，提升学生学习的积极性和效果。与此同

特技飞行表演、飞行汽车、动力伞齐上阵株洲动态飞行表演即将亮相

华声在线9月14日讯(全媒体记者黄婷婷通讯员刘慧林国柱)记者从今天举行的2023年湖南(国际)通用航空产业博览会新闻发布会获悉,株洲动态飞行表演时间定在9月22日至24日三天。（往届湖南(国际)通用航空产业博览会特技

上滑加载更多 ↓

推荐阅读：

深融十年智驱未来丨复旦大学新闻学院院长张涛甫：中国

小细节大改变-那些职业都在用的背包管理技巧

全球连线｜巴基斯坦博士后：用中国技术提高巴基斯坦粮食产

海军工程大学马伟明院士：电磁发射技术的研究现状与挑战

中国工程院院士郑纬民：开展基于国产AI芯片大模型基础设

机器人、物联网等新技术引入第六届进博会馆内服务保

喝水也致病？男孩突然确诊......这个细节千万小心

这项中医疗法对孩子很有用！小儿推拿适宜技术培训班在福

苹果已将大量技术工人派往印度，吃着中国饭，却要“去中国

复旦大学教授沈丁立：Mate 60 Pro不是突破深度陷入美西

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top