白话字符集的基础知识

计算机是歪果仁发明的，人家只有26个拉丁字母，a-z。加上大小写和其它标点了什么的，也就几十个。要存进数据库就要考虑留下多大的空间。计算机的语言世界里只有0和1，也就是所谓的二进制，所以就预留了7个位，2的7次方也就是128种排序，让每个字符占一个字节的存储空间。为了保险起见，还多留了一个位，所以一个字节就占8个bit。

再后来计算机开始第一波普及，某些其它国家不干了，因为除了这些简单的拉丁字母人家还有自己的小母语。于是启用了8位的第一位，变成了2的8次方，也就是256个字节。

如果只是西方国家有这些字节也就够用了，但是再往后普及。到了咱们东方大国，包括棒子国，东瀛和琉球等国家，这些字节就肯定不够用了。所以再想辙，让一个字符占两个字节，相于256的256次方。想一想感觉是个很庞大的数字，但是要让这些字节来包括所有国家的所有文字也肯定不够用。于是，聪明的人类就制订了各种ISO标准来符合各个国家。最终用一个ASCII（美国信息交换标准代码）进行一一对应。像咱们经常使用GBK2312(简体)，GBK(繁简混合)就是这种情况。不仅如此，为了满足所有国家都能畅通无阻，1990年着手研究，1994年公布了Unicode（统一码、万国码、单一码）,每个字符占4个字节，也就是256的256次方的256次方的256次方，足够就会所有国家的文字了。

按说发展到这个阶段也就可以了，但是问题又来了。如果像咱们中国用一堆汉字繁简混合还值得让每个字符占4个字节，如果其中的英文字母也是每个字符占四个字符就显得有点浪费了。放眼看吧，现在的油不够用了，煤不够用了，连ip地址都不够用了，这字节也要省着用呐。所以呢，高人出现了。他发明了UTF(通用转换格式),也就是根据要存储的字符决定要占用几个字节，比如字母就少占，汉字就多占。具体可能会占1到6个字节。

看到这里似乎要奇怪了，原来只需要最多4个字节，现在怎么要最多6个了。因为计算机本身不是智能的，它不能真的“思考“一个字符是字母还是汉字，我们就需要用一个标准给它做一个标识。UTF-8编码规则：如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。

知识点写到这就结束了，非常感叹前辈们的智慧与总结，我们现在才能如此轻松享受信息技术带来的改变。

展开阅读全文

页面更新：2024-05-27

标签：琉球多字汉字拉丁字母次方个位字符集白话字节基础知识字母字符繁简也就是文字计算机标准国家数码

1 2 3 4 5

白话字符集的基础知识

实现高大上的无限级分类，全靠这几个方法了

如何优雅的扒网站——工具篇

php正则表达式填坑

专治手机翘屏的良方

腾讯云搭建web环境基础指导

微信小程序新手填坑

打造网页版聊天页面的几个知识点

分享个人的JS方法技巧工作笔记

如何让分页码居中显示及解决浮动元素覆盖的问题

纯原生js制作简易计算器

server2008搭建php与jsp双站点

移动端适配方案进阶

联名迪士尼疯狂动物城五菱NanoEV限定款上市售5.98万元

风头正劲的雅阁迎来中期改款预售17.98万起

小女生的性格教育

食品加工的高标准，正促使行业加速向自动化制造转型

vivo进入欧洲六大国家，冲击全球化市场

工业平板电脑的标准接口—凤凰端子，你了解多少？

工业一体机出厂前要经过哪些检测项目，如何检，标准有吗？

千元机的三大标准守则，iQOO Z3首发评测

千元机新标准，iQOO Z3正式发布

嵌入式系统，它有哪些应用场景，和通用型计算机的区别是什

vivo TWS 2搭载智能动态降噪技术，这是2021年旗舰降噪的

有哪些数码好物可以用为“她”服务的名义，正大光明买给

中慧创TCT01 AR眼镜数码配件，小身材大作用