找回密码
 立即注册
搜索
查看: 18|回复: 2

两分输入法5.0码表编码统计 转自《马黑博客》

[复制链接]

1104

主题

2801

回帖

1万

积分

管理员

积分
10492
发表于 昨天 14:31 | 显示全部楼层 |阅读模式
https://www.huachaowang.com/forum.php?mod=viewthread&tid=90127&pid=2503156&page=1&extra=#pid2503156
序号编码字数编码条目数编码字数合计
1110,75910,759
224,9869,972
332,6888,064
441,8277,308
551,2916,455
668675,202
776574,599
884943,952
994203,780
10103003,000
11112582,838
12122172,604
13132132,769
14141351,890
15151241,860
16161161,856
1717831,411
1818631,134
1919711,349
2020541,080
2121521,092
2222561,232
232338874
242420480
252521525
2626391,014
272716432
282824672
292918522
303017510
313116496
323216512
333313429
343415510
353515525
363612432
37379333
383812456
39398312
40408320
4141141
42425210
4343286
444411484
45456270
4646292
47475235
48488384
49494196
50505250
51518408
52522104
53532106
54544216
55552110
5656156
5757157
58602120
59612122
6062162
6163163
6264164
63665330
6467167
6569169
66702140
6771171
6873173
6975175
7076176
7178178
7282182
73854340
7496196
合计98,793

【说明】“编码字数”指一个编码下包含的字数;“编码条目数”是包含N个字的编码条目数合计;“编码字数合计”是对应编码总字数汇总,右下单元格是码表总字数合计。

马黑博客 https://mahei.ccccocccc.cc/ 《花潮论坛》马黑黑教程专版 https://www.huachaowang.com/forum.php?mod=forumdisplay&fid=94

1104

主题

2801

回帖

1万

积分

管理员

积分
10492
 楼主| 发表于 昨天 14:33 | 显示全部楼层
一个编码对应一个字多达10多的占比算是很高了;而一个编码对应的字最多的是96个,这相当惊人。

高重码率无法避免,这是两字元方案处理近10万字不得不接受的现实。

有一种输入法过去叫“二笔输入法”,后接受网友的建议改名为“两笔输入法”,现衍生出很多社区维护的版本,其中 两笔之家 系列版本可能有元二笔官方背景。这个输入法彻底解决了重码问题,GBK两万以前零三个字的重码率比形码还低。它采用的是 “字的声母 + 字的第一、二笔画映射键位 + 字的第三、四笔画映射键位 + 末两个笔画映射键位” 的方法进行编码(其中笔画若为单笔画则使用单笔画映射键位)。学习成本不算低,不过笔画映射键位有规律,投入一点时间也能上手。当然,它的字库总数仅限于GBK范围,它要处理10多万字也无法避开重码率。

两分输入法重在实现无字不能输入的目标,所以重码率不是个问题,优化内部编码也不是当前的首要任务。


1104

主题

2801

回帖

1万

积分

管理员

积分
10492
 楼主| 发表于 昨天 14:35 | 显示全部楼层

本统计表其实任何人都可以做,使用的工具无非就是一个功能强大的文本编辑器、电子表格,高端一点的还可以用上数据库。我做的时候仅使用文本编辑器,使用该编辑器整理码表为所需格式,然后借助JS的强大数组、对象处理功能实现数据检索和汇总,最后生成数据表格。

上述表格仅是一个统计数据,完整的码表数据汇总太大,就不搬来这里了。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

协同嘉业科技有限公司 ( 京ICP备2024053108号-1 )

GMT+8, 2026-1-26 02:41 , Processed in 0.095686 second(s), 28 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表