无格式二三整句比有格式二三整句更准确
本文采用整句输入方案准确率的定量评价文中的方 法,在两种不同设定下评价了有格式和无格式的二三整句的准确率:
- 「真实」输入方案:有格式二三整句采用「小兮码」,无格式二三整句采用「c42」;
- 「虚拟」输入方案:编码随机生成
针对语料文本,根据相应的码表编码后,用 rime_api_console
调用 librime 解码。
指标定义
- 综合准确率:解码结果中正确的汉字数量占原始文本的比例
- 语句完全准确率:对于每一句话,解码结果完全等同于原始文本的比例
- 语句纯粹重码率:对于每一句话,解码时切分的编码串和原始文本的编码串相同,但其中一个或多个编码转换为了不同的汉字(即有重码)
- 语句切分错误率:对于每一句话,解码时切分的编码串和原始文本的编码串不同
对于一次实验来说,「完全准确率」、「纯粹重码率」、「切分错误率」三者之和为 1. 对于有格式二三整句来说,语句切分错误率总是为 0.