汉字信息工程 | 谭淞宸的知识库

📄️ gram 语言模型的压缩

考虑一个语言 $L$ 包含 $n$ 个词，$L=\{w1,\cdots,wn\}$。一个 2-gram 语言模型可以看成是以词为下标的矩阵，每个元素 $P$ 表示在语言中连续出现 $wi$ 和 $w_j$ 的概率：

📄️ ASCII

阐述

📄️ GB 18030

阐述

📄️ GB 2312

阐述

📄️ GB2312 中只有结构不同的字

另叻

📄️ UTF-16

阐述

📄️ UTF-8

阐述

📄️ Unicode

阐述

📄️ Unihan

阐述

📄️ c³ 拆分可行性研究

本文将结合[[拆分表的定量评价]]一文中提出的指标，来讨论如何设计 c³ 输入方案的拆分。c³ 将会和 c⁴² 一样是一个三拆补音的方案，以下的讨论都是基于这一前提的。

📄️ 中文 Huffman 编码及其对中文输入方案的启发

Huffman 编码简介

📄️ 中日韩统一表意文字

阐述

📄️ 为什么 Rime 需要更好的码表翻译器

背景

📄️ 交互式计算与人在回路的方案设计

📄️ 冰雪四拼发布会

冰雪四拼：最好玩的拼音输入法

📄️ 国家标准与规范

渠道：

📄️ 声笔 10 开发及新特性

声笔 10.0：书写顶功的新篇章

📄️ 声笔四拼：简拼词输入的巅峰体验

《汉语拼音方案》是国民基础教育的一部分，因此基于它的「全拼输入方案」也就成为了使用人数最多的输入方案。全拼不仅没有学习成本，仅从汉字编码的角度来看它也有很多优点。

📄️ 字位

阐述

📄️ 宇浩输入法 CJK 基本集和扩展 A 勘误

部件拆分

📄️ 拆分表的定量评价

引言

📄️ 推荐归并的字根

- 八：办外，木末二

📄️ 整句输入方案准确率的定量评价

整句输入方案一直以来难以正确评估其准确率，通常都是基于个人主观体验，在不同的输入方案之间比较的时候往往难以服众。本文提出了一种定量评价整句输入方案准确率和码长的方法，并以比较无格式和有格式二三整句为例阐述了具体的实验过程。

📄️ 无格式二三整句比有格式二三整句更准确

本文采用[[整句输入方案准确率的定量评价]]文中的方法，在两种不同设定下评价了有格式和无格式的二三整句的准确率：

📄️ 模拟退火算法原理及应用

输入方案的优化

📄️ 汉字内码扩展规范

阐述

📄️ 汉字描述语言

- CDL: 基于嵌套

📄️ 汉字自动拆分原理

引言

📄️ 汉字自动拆分论文

汉字拆分自动化综述

📄️ 考古

C输入吧链接如下：

📄️ 蓝落萧

简历

📄️ 表意文字描述序列

阐述

📄️ 通用规范汉字表

收录 8105 个字，分为三级：

📄️ 重码估计方法

问题