白话字符集的基础知识

白话字符集的基础知识

计算机是歪果仁发明的,人家只有26个拉丁字母,a-z。加上大小写和其它标点了什么的,也就几十个。要存进数据库就要考虑留下多大的空间。计算机的语言世界里只有0和1,也就是所谓的二进制,所以就预留了7个位,2的7次方也就是128种排序,让每个字符占一个字节的存储空间。为了保险起见,还多留了一个位,所以一个字节就占8个bit。

再后来计算机开始第一波普及,某些其它国家不干了,因为除了这些简单的拉丁字母人家还有自己的小母语。于是启用了8位的第一位,变成了2的8次方,也就是256个字节。

如果只是西方国家有这些字节也就够用了,但是再往后普及。到了咱们东方大国,包括棒子国,东瀛和琉球等国家,这些字节就肯定不够用了。所以再想辙,让一个字符占两个字节,相于256的256次方。想一想感觉是个很庞大的数字,但是要让这些字节来包括所有国家的所有文字也肯定不够用。于是,聪明的人类就制订了各种ISO标准来符合各个国家。最终用一个ASCII(美国信息交换标准代码)进行一一对应。像咱们经常使用GBK2312(简体),GBK(繁简混合)就是这种情况。不仅如此,为了满足所有国家都能畅通无阻,1990年着手研究,1994年公布了Unicode(统一码、万国码、单一码),每个字符占4个字节,也就是256的256次方的256次方的256次方,足够就会所有国家的文字了。

按说发展到这个阶段也就可以了,但是问题又来了。如果像咱们中国用一堆汉字繁简混合还值得让每个字符占4个字节,如果其中的英文字母也是每个字符占四个字符就显得有点浪费了。放眼看吧,现在的油不够用了,煤不够用了,连ip地址都不够用了,这字节也要省着用呐。所以呢,高人出现了。他发明了UTF(通用转换格式),也就是根据要存储的字符决定要占用几个字节,比如字母就少占,汉字就多占。具体可能会占1到6个字节。

看到这里似乎要奇怪了,原来只需要最多4个字节,现在怎么要最多6个了。因为计算机本身不是智能的,它不能真的“思考“一个字符是字母还是汉字,我们就需要用一个标准给它做一个标识。UTF-8编码规则:如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的字节数,其余各字节均以10开头。

知识点写到这就结束了,非常感叹前辈们的智慧与总结,我们现在才能如此轻松享受信息技术带来的改变。

展开阅读全文

页面更新:2024-05-27

标签:琉球   多字   汉字   拉丁字母   次方   个位   字符集   白话   字节   基础知识   字母   字符   繁简   也就是   文字   计算机   标准   国家   数码

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top