找回密码
 立即注册
搜索
查看: 33|回复: 2

两分输入法码表捺笔编码问题 转自《马黑博客》

[复制链接]

1115

主题

2806

回帖

1万

积分

管理员

积分
10541
发表于 4 天前 | 显示全部楼层 |阅读模式
https://mahei.ccccocccc.cc/art/?st=1&id=1769233044


综观两分输入法码表,其对第二字元为捺笔的字,在编码中对捺笔画字元以三种形式进行编码:其一,视为【丶】(dian),这与多数需要处理笔画的输入法做法一致,方案可取;其二是,看成【水】(shui),取其形状与【水】字末笔画相似联想而得,属“形托”做法,其做法在输入法领域也不鲜见;其三,保持笔画原本名称,【捺】(na),“音托”做法,亦为可以接受的处理方式。然而,三者混用则令人莫名其妙,试比较如下例字:


liaodian

piedian

koushui

yishui
𢎡
gongna
𠮺
kouna
分析上述随机抽取的例字,很难找到将末笔画捺笔字元编码为点、水、捺的依据或规律,两分手册(第一版)亦未对此提供细节说明,这会造成编码难度的提升,更给文字录入操作带来诸多困惑。实际上,抽样检测发现,字海网在对以捺笔收笔、不能拆出成字的字进行两分字元拆解时,都确定捺笔画为【丶】字元,二字元拆解思路一以贯之。但码表编码环节却将此类字的一部分定义捺笔字元的编码为【丶】,另一部分为【水】和【捺】,不知是何用意、依据何来。笔者曾向DS、Kimi等AI求解,它们认为原因应该是内部编码优化需求所致,具体而言是为了分化重码。如果确实是为了减少部分编码的重码率,那么不妨检索码表,将以捺笔画作为第二字元进行编码的单字全部找出,然后进行分析比较。以下汇总的例字数据均来源于字海官网中州韵版两分法码表5.0,检索结果应该没有重大遗漏:
1️⃣捺笔画编码为「丶」的例字:
乂 义 乑 八 刄 发 孓 尺 衣 豖 长 𠆢 𥫻 𩁾 𫝕 𰀠 𰛅 𱍸 𱝪 𲇆
2️⃣捺笔画编码为「水」的例字
截取图片_20260124231702.png
【注】「水」字的第二字元编码亦为shui,整体编码为yishui,疑为取「水」的左右合成部件,类似的例字还有其变体「氺」yishui,后者以丶收尾,不编码为dian就是将其左右合成部件视为「水」,因此可以佐证笔者对前者编码规则推测的合理性。 3️⃣捺笔画编码为「捺」的例字
截取图片_20260124231748.png
截取图片_20260124231810.png

前面提到,字海网拆分字元时均将捺笔画当作【丶】,而从上述罗列的例字看,真正将捺笔当作【丶】的占比并不高,保留原本【捺】的编码数量最多、编码为【水】的次之。官网拆分字元的方法与码表编码实际情况存在较大分歧,编码规则与编码操作思路并不完全一致。
比较两个表格提供的各例字原始编码总条数和现有该编码第一字元不变第二字元为【丶】编码的现有条目总数,可以发现若将这些例字捺笔画原始编码的第二个字元替换为【丶】,其所产生的重码率并不特别严重,在近十万单字的码表中属于正常现象,而且还存在相反的情形即一些例字反而可以倒过来分化原始编码的重码率。由此可以认为,分化重码并非客观和急切需要,之所以出现捺笔画作为三种形态进行编码的现象,应是在编码过程中多次进行规则调整和修正,最后定型的内部规则未能全面落实到码表制作中,或说由于种种原因尚未来得及修改。再者,在对这些例字进行建检索、分析过程中,笔者发现4.0码表和5.0码表在处理捺笔画字元上存在一定差异,有修改、调整现象的迹象,可见在编码过程中存在左右为难的取舍情形。不论如何,还是建议全面统一捺笔画字元编码,以提升输入法的科学性、严谨性与易用性。
总而言之,统一捺笔画字元的编码对输入法在应用层面而言是刚性需求,如果没有其他专业且合理的重要考量,笔者认为不应细分捺笔为三种编码方案,在【丶】和【捺】中人选一个,前者为最佳。
以上拙见或不合时宜,若此,请一笑置之。

1115

主题

2806

回帖

1万

积分

管理员

积分
10541
 楼主| 发表于 4 天前 | 显示全部楼层
  马黑博客     https://mahei.ccccocccc.cc/art/?st=1&id=1768798421
《花潮论坛》马黑黑教程专版  https://www.huachaowang.com/foru ... 9&page=1#pid2496132

1115

主题

2806

回帖

1万

积分

管理员

积分
10541
 楼主| 发表于 3 天前 | 显示全部楼层
序号编码字数编码条目数编码字数合计
1110,75910,759
224,9869,972
332,6888,064
441,8277,308
551,2916,455
668675,202
776574,599
884943,952
994203,780
10103003,000
11112582,838
12122172,604
13132132,769
14141351,890
15151241,860
16161161,856
1717831,411
1818631,134
1919711,349
2020541,080
2121521,092
2222561,232
232338874
242420480
252521525
2626391,014
272716432
282824672
292918522
303017510
313116496
323216512
333313429
343415510
353515525
363612432
37379333
383812456
39398312
40408320
4141141
42425210
4343286
444411484
45456270
4646292
47475235
48488384
49494196
50505250
51518408
52522104
53532106
54544216
55552110
5656156
5757157
58602120
59612122
6062162
6163163
6264164
63665330
6467167
6569169
66702140
6771171
6873173
6975175
7076176
7178178
7282182
73854340
7496196
合计98,793

【说明】“编码字数”指一个编码下包含的字数;“编码条目数”是包含N个字的编码条目数合计;“编码字数合计”是对应编码总字数汇总,右下单元格是码表总字数合计。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

协同嘉业科技有限公司 ( 京ICP备2024053108号-1 )

GMT+8, 2026-1-28 13:16 , Processed in 0.099840 second(s), 31 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表