Unicode
阐述
Unicode 是一种字符编码与表示的标准,致 力于统一世界各国的语言文字的字集。
Unicode 相比于以前的编码来说更重视对于字位而非字形的编码,这使它有了更强的通用性,但是也导致在汉字的处理中的一些问题。对每一个字位,Unicode 给它指定一个码点——即数字,而非字形,而将它的具体呈现方式交给字体。
码位的范围是 0 到 10FFFF,通常以 U+
加上至少四位数来表示,即 U+0000
到 U+10FFFF
。共有 个码位。
- 平面 0:
U+0000
至U+FFFF
,称为基本多语种平面 - 平面 1 ~ 16: 分别对应
U+10000
至U+1FFFF
等,称为辅助平面- 平面 1: 多文种补充平面
- 平面 2: 表意文字补充平面
- 平面 3: 表意文字 第三平面
- 平面 14: 特别用途补充平面
- 平面 15 & 16: 私人使用区
Unicode 的具体实现方式均为变长编码:
实例
- UTF-16 所规定的替代对的范围是
U+D800
至U+DFFF
- 非字符为
U+FDD0 - U+FDEF
以及所有以FFFE
和FFFF
结尾的码位 - 私用区为
U+E000 - U+F8FF
以及U+F0000 - U+FFFFD
和U+100000 - U+10FFFD
(即 15、16 平面)