📄️ gram 语言模型的压缩
考虑一个语言 $L$ 包含 $n$ 个词,$L=\{w1,\cdots,wn\}$。一个 2-gram 语言模型可以看成是以词为下标的矩阵,每个元素 $P$ 表示在语言中连续出现 $wi$ 和 $w_j$ 的概率:
📄️ ASCII
阐述
📄️ GB 18030
阐述
📄️ GB 2312
阐述
📄️ GB2312 中只有结构不同的字
另 叻
📄️ UTF-16
阐述
📄️ UTF-8
阐述
📄️ Unicode
阐述
📄️ Unihan
阐述
📄️ c³ 拆分可行性研究
本文将结合[[拆分表的定量评价]]一文中提出的指标,来讨论如何设计 c³ 输入方案的拆分。c³ 将会和 c⁴² 一样是一个三拆补音的方案,以下的讨论都是基于这一前提的。
📄️ 中文 Huffman 编码及其对中文输入方案的启发
Huffman 编码简介
📄️ 中日韩统一表意文字
阐述
📄️ 交互式计算与人在回路的方案设计
📄️ 冰雪四拼发布会
冰雪四拼:最好玩的拼音输入法
📄️ 国家标准与规范
渠道:
📄️ 声笔 10 开发及新特性
声笔 10.0:书写顶功的新篇章
📄️ 声笔四拼:简拼词输入的巅峰体验
《汉语拼音方案》是国民基础教育的一部分,因此基于它的「全拼输入方案」也就成为了使用人数最多的输入方案。全拼不仅没有学习成本,仅从汉字编码的角度来看它也有很多优点。
📄️ 字位
阐述
📄️ 宇浩输入法 CJK 基本集和扩展 A 勘误
部件拆分
📄️ 拆分表的定量评价
引言
📄️ 推荐归并的字根
- 八:办外,木末二
📄️ 模拟退火算法原理及应用
输入方案的优化
📄️ 汉字内码扩展规范
阐述
📄️ 汉字描述语言
- CDL: 基于嵌套
📄️ 汉字自动拆分原理
引言
📄️ 汉字自动拆分论文
汉字拆分自动化综述
📄️ 考古
C输入吧链接如下:
📄️ 蓝落萧
简历
📄️ 表意文字描述序列
阐述
📄️ 通用规范汉字表
收录 8105 个字,分为三级:
📄️ 重码估计方法
问题