跳到主要内容

汉字内码扩展规范

阐述

为了实现 Unicode 1.1 (1993) 所规定的 20902 个汉字,中国制定了 GB 13000.1-93 规范,然后由微软利用 GB 2312 未使用的编码空间收录了这些字符并编码。1995 年发布了 GBK 1.0,是一个技术规范指导性文件(不属于国家标准)。被 GB 18030 取代。

字集

  • 在 Unicode 1.0.1 中引入的中日韩统一表意文字 20902 个
  • 在 Unicode 中日韩兼容汉字区中的 21 个汉字
  • Unicode 当时尚未收录的 28 个部首和 52 个汉字
    • 这 52 个字被收到了 CJK 扩展 A
    • 14 个部首收入了 CJK 部首补充区
    • 8 个部首收入了 CJK 的 9F 开头区域
    • 6 个部首收入了 CJK 扩展 B
    • GBK 当时将这些映射到 PUA 码,但是后来又收录,导致了一字双码的情况

编码

  • GBK/1: A1-A9, A1-FE(对应 GB2312 01 ~ 09 区)
  • GBK/2: B0-F7, A1-FE(对应 GB2312 16 ~ 87 区)
  • GBK/3: 81-A0, 40-FE (7F 除外)
  • GBK/4: AA-FE, 40-A0 (7F 除外)
  • GBK/5: A8-A9, 40-A0 (7F 除外)
  • 用户自定义:AA-AF, A1-FE; F8-FE, A1-FE; A1-A7, 40-A0 (7F 除外)

因此 GBK/1, GBK/2 就向下兼容了 GB2312.

实例

性质

相关内容

参考文献