跳到主要内容

Unicode

阐述

Unicode 是一种字符编码与表示的标准,致力于统一世界各国的语言文字的字集。

Unicode 相比于以前的编码来说更重视对于字位而非字形的编码,这使它有了更强的通用性,但是也导致在汉字的处理中的一些问题。对每一个字位,Unicode 给它指定一个码点——即数字,而非字形,而将它的具体呈现方式交给字体。

码位的范围是 0 到 10FFFF,通常以 U+ 加上至少四位数来表示,即 U+0000U+10FFFF。共有 17×21617\times 2^{16} 个码位。

  • 平面 0:U+0000U+FFFF,称为基本多语种平面
  • 平面 1 ~ 16: 分别对应 U+10000U+1FFFF 等,称为辅助平面
    • 平面 1: 多文种补充平面
    • 平面 2: 表意文字补充平面
    • 平面 3: 表意文字第三平面
    • 平面 14: 特别用途补充平面
    • 平面 15 & 16: 私人使用区

Unicode 的具体实现方式均为变长编码:

实例

  • UTF-16 所规定的替代对的范围是 U+D800U+DFFF
  • 非字符为 U+FDD0 - U+FDEF 以及所有以 FFFEFFFF 结尾的码位
  • 私用区为 U+E000 - U+F8FF 以及 U+F0000 - U+FFFFDU+100000 - U+10FFFD(即 15、16 平面)

性质

相关内容

参考文献