跳到主要内容

无格式二三整句为何比有格式二三整句准确率高

本文采用整句输入方案准确率的定量评价文中的方法,在两种不同设定下评价了有格式和无格式的二三整句的准确率:

  1. 「真实」输入方案:有格式二三整句采用「小兮码」,无格式二三整句采用「c42」;
  2. 「虚拟」输入方案:编码随机生成

针对语料文本,根据相应的码表编码后,用 rime_api_console 调用 librime 解码。

指标定义

  1. 综合准确率:解码结果中正确的汉字数量占原始文本的比例
  2. 语句完全准确率:对于每一句话,解码结果完全等同于原始文本的比例
  3. 语句纯粹重码率:对于每一句话,解码时切分的编码串和原始文本的编码串相同,但其中一个或多个编码转换为了不同的汉字(即有重码)
  4. 语句切分错误率:对于每一句话,解码时切分的编码串和原始文本的编码串不同

对于一次实验来说,「完全准确率」、「纯粹重码率」、「切分错误率」三者之和为 1. 对于有格式二三整句来说,语句切分错误率总是为 0.

整体结果

小兮码 vs c42

随机编码

分长度结果