汉字编码方式(编码方式)
大家好,小讯来为大家解答以上的问题。汉字编码方式,编码方式这个很多人还不知道,现在让我们一起来看看吧!
1、一、ASCII 码我们知道,计算机内部,所有信息最终都是一个二进制值。
2、每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。
3、也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从00000000到11111111。
4、上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。
5、这被称为 ASCII 码,一直沿用至今。
6、ASCII 码一共规定了128个字符的编码,比如空格SPACE是32(二进制00100000),大写的字母A是65(二进制01000001)。
7、这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的一位统一规定为0。
8、二、非 ASCII 编码英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。
9、比如,在法语中,字母上方有注音符号,它就无法用 ASCII 码表示。
10、于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。
11、比如,法语中的é的编码为130(二进制10000010)。
12、这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。
13、但是,这里又出现了新的问题。
14、不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。
15、比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。
16、但是不管怎样,所有这些编码方式中,0--127表示的符号是一样的,不一样的只是128--255的这一段。
17、至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。
18、一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。
19、比如,简体中文常见的编码方式是 GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示 256 x 256 = 65536 个符号。
20、中文编码的问题需要专文讨论,这篇笔记不涉及。
21、这里只指出,虽然都是用多个字节表示一个符号,但是GB类的汉字编码与后文的 Unicode 和 UTF-8 是毫无关系的。
22、三. Unicode正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。
23、因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。
24、为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。
25、可以想象,如果有一种编码,将世界上所有的符号都纳入其中。
26、每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。
27、这就是 Unicode,就像它的名字都表示的,这是一种所有符号的编码。
28、Unicode 当然是一个很大的集合,现在的规模可以容纳100多万个符号。
29、每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字严。
30、具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表。
31、常见的数据编码方案有:单极性码、极性码、双极性码、归零码、双相码、不归零码、曼彻斯特编码、差分曼彻斯特编码、多电平编码、4B/5B编码。
32、单极性码:在这种编码方案中,只适用正的(或负的)电压表示数据。
33、单极性码用在电传打字机接口以及PC机和TTY兼容的接口中,这种代码需要单独的时钟信号配合定时,否则当传送一长串0或1时,发送机和接收机的时钟将无法定时,单极性码的抗噪声特性也不好。
34、极性码:在这种编码中,分别用正和负电压表示二进制数“0”和“1”。
35、这种代码的电平差比单极码大,因而抗干扰特性好,但仍需另外的时钟信号。
36、双极性码:信号在三个电平(正、负、零)之间变化。
37、一种典型的双极性码就是信号反转交替编码(AMI)。
38、在AMI信号中,数据流遇到“1”时使电平在正和负之间交替翻转,而遇到“0”时则保持零电平。
39、归零码:(Return to Zero,RZ)码元中间信号回归到零电平,比如从正电平到零电平的转换表示码元“0”,而从负电平到零电平表示码元“1”。
40、双相码:双相码要求每一位中都要有一个电平转换。
41、因而这种代码的最大优点是自定时,同时双相码也有检测错误的功能,如果某一位中间缺少了电平翻转,则被认为是违例代码。
42、1.ASCII码这是美国在19世纪60年代的时候为了建立英文字符和二进制的关系时制定的编码规范,它能表示128个字符,其中包括英文字符、阿拉伯数字、西文字符以及32个控制字符。
43、它用一个字节来表示具体的字符,但它只用后7位来表示字符(2^7=128),最前面的一位统一规定为0。
44、2.扩展的ASCII码原本的ASCII码对于英文语言的国家是够用了,但是欧洲国家的一些语言会有拼音,这时7个字节就不够用了。
45、因此一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。
46、比如,法语中的é的编码为130(二进制10000010)。
47、这样一来,这些欧洲国家使 用的编码体系,可以表示最多256个符号。
48、但这时问题也出现了:不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。
49、比如,130在法语编码 中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。
50、但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。
51、这个问题就直接促使了Unicode编码的产生。
52、3.Unicode符号集正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。
53、因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。
54、为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。
55、而Unicode就是这样一种编码:它包含了世界上所有的符号,并且每一个符号都是独一无二的。
56、比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字“严”。
57、具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表 。
58、很多人都说Unicode编码,但其实Unicode是一个符号集(世界上所有符号的符号集),而不是一种新的编码方式。
59、常见的一些字符编码方式:Unicode、ASCII、GBK、GB2312、UTF-8。
60、下面先对常见的这一些字符编码方式作下说明:1.ASCII码这是美国在19世纪60年代的时候为了建立英文字符和二进制的关系时制定的编码规范,它能表示128个字符,其中包括英文字符、阿拉伯数字、西文字符以及32个控制字符。
61、它用一个字节来表示具体的字符,但它只用后7位来表示字符(2^7=128),最前面的一位统一规定为0。
62、2.扩展的ASCII码原本的ASCII码对于英文语言的国家是够用了,但是欧洲国家的一些语言会有拼音,这时7个字节就不够用了。
63、因此一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。
64、比如,法语中的é的编码为130(二进制10000010)。
65、这样一来,这些欧洲国家使 用的编码体系,可以表示最多256个符号。
66、但这时问题也出现了:不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。
67、比如,130在法语编码 中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。
68、但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。
69、这个问题就直接促使了Unicode编码的产生。
70、3.Unicode符号集正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。
71、因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。
72、为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。
73、而Unicode就是这样一种编码:它包含了世界上所有的符号,并且每一个符号都是独一无二的。
74、比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字“严”。
75、具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表 。
76、很多人都说Unicode编码,但其实Unicode是一个符号集(世界上所有符号的符号集),而不是一种新的编码方式。
77、但是正因为Unicode包含了所有的字符,而有些国家的字符用一个字节便可以表示,而有些国家的字符要用多个字节才能表示出来。
78、即产生了两个问题:第一,如果有两个字节的数据,那计算机怎么知道这两个字节是表示一个汉字呢?还是表示两个英文字母呢?第二,因为不同字符需要的存储长度不一样,那么如果Unicode规定用2个字节存储字符,那么英文字符存储时前面1个字节都是0,这就大大浪费了存储空间。
79、上面两个问题造成的结果是:1)出现了unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示unicode。
80、2)unicode在很长一段时间内无法推广,无论在是在编辑文本文件的时候,还是在制作网页的时候,总会遇到文本编码方式的问题。
81、如果处理不当,就会出现乱码的问题。
82、因此,有必要对文本的编码方式做一个详尽的了解。
83、常见的一些字符编码方式无非有:Unicode、ASCII、GBK、GB2312、UTF-8。
84、下面先对常见的这一些字符编码方式作下说明:1.ASCII码这是美国在19世纪60年代的时候为了建立英文字符和二进制的关系时制定的编码规范,它能表示128个字符,其中包括英文字符、阿拉伯数字、西文字符以及32个控制字符。
85、它用一个字节来表示具体的字符,但它只用后7位来表示字符(2^7=128),最前面的一位统一规定为0。
86、2.扩展的ASCII码原本的ASCII码对于英文语言的国家是够用了,但是欧洲国家的一些语言会有拼音,这时7个字节就不够用了。
87、因此一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。
88、比如,法语中的é的编码为130(二进制10000010)。
89、这样一来,这些欧洲国家使 用的编码体系,可以表示最多256个符号。
90、但这时问题也出现了:不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。
91、比如,130在法语编码 中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。
92、但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。
93、这个问题就直接促使了Unicode编码的产生。
94、3.Unicode符号集正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。
95、因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。
96、为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。
97、而Unicode就是这样一种编码:它包含了世界上所有的符号,并且每一个符号都是独一无二的。
98、比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字“严”。
99、具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表 。
100、很多人都说Unicode编码,但其实Unicode是一个符号集(世界上所有符号的符号集),而不是一种新的编码方式。
101、但是正因为Unicode包含了所有的字符,而有些国家的字符用一个字节便可以表示,而有些国家的字符要用多个字节才能表示出来。
102、即产生了两个问题:第一,如果有两个字节的数据,那计算机怎么知道这两个字节是表示一个汉字呢?还是表示两个英文字母呢?第二,因为不同字符需要的存储长度不一样,那么如果Unicode规定用2个字节存储字符,那么英文字符存储时前面1个字节都是0,这就大大浪费了存储空间。
103、上面两个问题造成的结果是:1)出现了unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示unicode。
104、2)unicode在很长一段时间内无法推广,直到互联网的出现。
105、4.UTF-8互联网的普及,强烈要求出现一种统一的编码方式。
106、UTF-8就是在互联网上使用最广的一种unicode的实现方式。
107、其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。
108、重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。
109、UTF-8最大的一个特点,就是它是一种变长的编码方式。
110、它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
111、UTF-8的编码规则很简单,只有两条:1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。
112、因此对于英语字母,UTF-8编码和ASCII码是相同的。
113、2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。
114、剩下的没有提及的二进制位,全部为这个符号的unicode码。
115、5.GBK/GB2312/GB18030GBK和GB2312都是针对简体字的编码,只是GB2312只支持六千多个汉字的编码,而GBK支持1万多个汉字编码。
116、而GB18030是用于繁体字的编码。
117、汉字存储时都使用两个字节来储存。
本文到此分享完毕,希望对大家有所帮助。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
“倾城一笑百眉生”是一句形容女性美貌的诗句,其中暗含了生肖解谜的趣味。要通过这句话推导出对应的生肖动物...浏览全文>>
-
“喂饭”与生肖的关联可以通过谐音或象征意义来解读。在中国传统文化中,“喂饭”可以联想到“犬”这个生肖,...浏览全文>>
-
“一人之下,万人之上,将军威权千里雄”这句诗描述了一种威严与权力的象征,结合生肖文化,最贴合的生肖是龙...浏览全文>>
-
这个谜语“月圆入圆家团圆,一六连结来相帮”描述了一个温馨和谐的画面,结合生肖的特点,答案是狗。诗意解读...浏览全文>>
-
“不知所措,心乱如麻。始信劲草胜娇花”这句描述中,“劲草”和“娇花”都具有象征意义。“劲草”坚韧不拔,...浏览全文>>
-
“假情假意”并不是直接与生肖相关联的成语,但它可以被用来形容某些生肖的性格特点或行为表现。以下从诗意的...浏览全文>>
-
按劳分配是中国社会主义初级阶段个人收入分配的基本原则之一,强调根据劳动者提供的劳动数量和质量来决定其所...浏览全文>>
-
“按劳分配”出自社会主义分配原则,意指根据个人付出的劳动量来决定所得报酬。结合生肖数字,“按劳分配”可...浏览全文>>
-
“海阔天空”是一个充满自由与广阔意境的成语,它象征着无拘无束、胸怀宽广的精神状态。结合生肖文化,这一成...浏览全文>>
-
“放虎归山”是一则成语,意思是将老虎放回山林,比喻把坏人或敌人放回去,可能会造成更大的危害。而将其作为...浏览全文>>
- 放虎归山打一动物生肖说的是什么动物,经典解答落实
- 望天而啼,天地清明。九微片片飞花开打一个生肖数字,第一解析落实
- 亡羊补牢打一生肖数字数字,已答解释落实
- 力壓羣雄,谁敢张狂?群雌粥粥尽仰望是什么生肖打一生肖动物精选解释解析落
- 试驾雷克萨斯LX,从预约到试驾的完美旅程
- 奥迪SQ5 Sportback预约试驾,线上+线下操作指南
- 试驾五菱凯捷有哪些途径
- MINI试驾,线上+线下操作指南
- 蒙迪欧试驾预约,4S店体验全攻略
- 大运悦虎试驾预约怎么预约
- AION S试驾,如何在4S店快速预约?
- 广汽传祺传祺向往M8试驾的流程是什么
- 长安欧尚520试驾预约操作指南
- 踏青归来马蹄香,一八追忆二难忘代表什么生肖,精准快答揭晓落实
- 半壁江山打一个正确的生肖,作答解释落实
- 屈指可数指什么生肖,科学答案落实
- 名冠古今世间稀打一个生肖,刚刚全面解释落实
- 未曾得向行人道打一个生肖打一种生肖,完美释义落实
- 阳春白雪打一个生肖,第一析释落实
- 灵蛇鼠洞一湖天是什么生肖打一动物精选最佳资料落实