汉字内码扩展规范
阐述
为了实现 Unicode 1.1 (1993) 所规定的 20902 个汉字,中国制定了 GB 13000.1-93 规范,然后由微软利用 GB 2312 未使用的编码空间收录了这些字符并编码。1995 年发布了 GBK 1.0,是一个技术规范指导性文件(不属于国家标准)。被 GB 18030 取代。
字集
- 在 Unicode 1.0.1 中引入的中日韩统一表意文字 20902 个
- 在 Unicode 中日韩兼容汉字区中的 21 个汉字
- Unicode 当时尚未收录的 28 个部首和 52 个汉字
- 这 52 个字被收到了 CJK 扩展 A
- 14 个部首收入了 CJK 部首补充区
- 8 个部首收入了 CJK 的 9F 开头区域
- 6 个部首收入了 CJK 扩展 B
- GBK 当时将这些映射到 PUA 码,但是后来又收录,导致了一字双码的情况
编码
- GBK/1: A1-A9, A1-FE(对应 GB2312 01 ~ 09 区)
- GBK/2: B0-F7, A1-FE(对应 GB2312 16 ~ 87 区)
- GBK/3: 81-A0, 40-FE (7F 除外)
- GBK/4: AA-FE, 40-A0 (7F 除外)
- GBK/5: A8-A9, 40-A0 (7F 除外)
- 用户自定义:AA-AF, A1-FE; F8-FE, A1-FE; A1-A7, 40-A0 (7F 除外)
因此 GBK/1, GBK/2 就向下兼容了 GB2312.