📄️ gram 语言模型的压缩
考虑一个语言 $L$ 包含 $n$ 个词,$L=\{w1,\cdots,wn\}$。一个 2-gram 语言模型可以看成是以词为下标的矩阵,每个元素 $P$ 表示在语言中连续出现 $wi$ 和 $w_j$ 的概率:
📄️ ASCII
阐述
📄️ GB 18030
阐述
📄️ GB 2312
阐述
📄️ GB2312 中只有结构不同的字
另 叻
📄️ UTF-16
阐述
📄️ UTF-8
阐述
📄️ Unicode
阐述
📄️ Unihan
阐述
📄️ c³ 拆分可行性研究
本文将结合[[拆分表的定量评价]]一文中提出的指标,来讨论如何设计 c³ 输入方案的拆分。c³ 将会和 c⁴² 一样是一个三拆补音的方案,以下的讨论都是基于这一前提的。
📄️ 中文 Huffman 编码及其对中文输入方案的启发
Huffman 编码简介
📄️ 中日韩统一表意文字
阐述