词元分析算法(一) —BPE(Byte Pair Encoding)

LLMs 讲到这个地方，目测还缺少一个环节，那就是最初始的词元分析，即我们平常口中说的分词，所有的NLP 模型，都是先对文本句子进行切分为一个个词元(单词)，然后进行embedding 到一个高维空间（这些高维空间中参数是模型待学习参数的一部分），常见的分词算法有BPE(Byte Pair Encoding), WordPiece,Unigram Language Model等，下面先介绍一下BPE 算法。

BPE是一种子词切分算法，将稀有和未知的单词编码为子词单元的序列。这种思路是将不同词类通过拆分为比单词更小的单元进行组合(翻译)，例如名称（通过字符复制或音译）、复合词（通过组合翻译）、同源词和介词（通过语音和形态转换），BPE 算法主要步骤如下：

1.准备足够大的训练语料

2.确定期望的subword词表大小

3.将单词拆分为字符序列并在末尾添加后缀“ ”，统计单词频率。本阶段的subword的粒度是字符。例如，“ low”的频率为5，那么我们将其改写为“ l o w ”：5

4.统计每一个连续字节对的出现频率，选择最高频者合并成新的subword

5.重复第4步直到达到第2步设定的subword词表大小或下一个最高频的字节对出现频率为1

相关分词算法的实现都在Google 开源的sentencepiece 包中已有实现，下面demo如下：

import sentencepiece as spm
spm.SentencePieceTrainer.train(
    input="data/feature/hotel_introduction.tsv",
    model_prefix="data/bpem",
    vocab_size=5000,
    model_type="bpe",
)
sp = spm.SentencePieceProcessor(model_file="data/bpem.model")
out = sp.encode_as_pieces(["爱我中华", "待测试"])
print(out)

[['▁', '爱', '我', '中华'], ['▁', '待', '测', '试']]

在目前已经发布的开源LLM 算法中，GPT-2、RoBERTa、XLM，Llama12、Baichuan12 等都是基于BPE 算法进行词元切分。其不仅在英文模型使用量广泛，在支持中文的模型中使用的越来越多；

对于中文模型使用BPE 算法，其实是在byte 层面进行合并，在UTF-8编码下，一个中文由三个byte 编码而成。这个和西文中一个byte 就是一个字符char 是有所区别的。

展开阅读全文

页面更新：2024-03-31

标签：算法词表切分分词组合中文单词字符频率模型

1 2 3 4 5

词元分析算法(一) —BPE(Byte Pair Encoding)

乌鲁木齐航空将于11月1日起开通乌鲁木齐=洛阳=曼谷航线

科学家说科幻②丨国家空间科学中心研究员吴季：当更多人进入太空旅行，会给人类带来更大的格局

中企投建营的柬埔寨暹粒吴哥国际机场通航运营

高质量发展吉林行｜在向海国家级自然保护区采访团与丹顶鹤来了一次“亲密接触”

泉州中心市区气溶胶激光雷达立体监控实现全覆盖

大荔县洛滨幼儿园教育集团开展教师园本培训

看见“特殊艺术”的暖暖力量

河南严重出生缺陷发生率明显下降

张家口市产前基因免费筛查惠及1.1万余例产妇

爱心暖心困境儿童领新衣

9月30日起，益阳14周岁及以下儿童凭有效证件免费乘坐城市公交

中国还能剩多少人？如果不生二胎，50年后中国人口会变为5.8亿人

预防出生缺陷，不只是妈妈的事！

常德：武陵区中国计生协“向日葵亲子小屋”项目正式揭牌启动

上海一幼儿园被曝多名幼童疑遭虐待，“身上找到多处针尖样小孔”！多方回应

百度发布文心大模型4.0，李彦宏：相比GPT-4毫不逊色

全球科技早报｜苹果CEO库克到访成都；诺和诺德13亿美元收

度小满CEO朱光：将加大布局金融大模型技术及应用

探迹科技发布销售大模型SalesGPT

睡遍导演圈子，极其卑鄙和傲慢，被誉为“导演组合”的张静

百度沈抖：企业使用大模型跑不出这五种需求

AI原生应用！李彦宏把大模型出路讲明白了

大模型能助力新型工业化吗？

美的拟明年上线智能家居大模型，“目前正在走报备流程”

初秋拉风组合:阔腿裤+乐福鞋，经典单品的硬核icon，时髦整