https://mahei.ccccocccc.cc/art/?st=1&id=1769233044
综观两分输入法码表,其对第二字元为捺笔的字,在编码中对捺笔画字元以三种形式进行编码:其一,视为【丶】(dian),这与多数需要处理笔画的输入法做法一致,方案可取;其二是,看成【水】(shui),取其形状与【水】字末笔画相似联想而得,属“形托”做法,其做法在输入法领域也不鲜见;其三,保持笔画原本名称,【捺】(na),“音托”做法,亦为可以接受的处理方式。然而,三者混用则令人莫名其妙,试比较如下例字:
孓
liaodian
八
piedian
史
koushui
又
yishui
𢎡
gongna
𠮺
kouna
分析上述随机抽取的例字,很难找到将末笔画捺笔字元编码为点、水、捺的依据或规律,两分手册(第一版)亦未对此提供细节说明,这会造成编码难度的提升,更给文字录入操作带来诸多困惑。实际上,抽样检测发现,字海网在对以捺笔收笔、不能拆出成字的字进行两分字元拆解时,都确定捺笔画为【丶】字元,二字元拆解思路一以贯之。但码表编码环节却将此类字的一部分定义捺笔字元的编码为【丶】,另一部分为【水】和【捺】,不知是何用意、依据何来。笔者曾向DS、Kimi等AI求解,它们认为原因应该是内部编码优化需求所致,具体而言是为了分化重码。如果确实是为了减少部分编码的重码率,那么不妨检索码表,将以捺笔画作为第二字元进行编码的单字全部找出,然后进行分析比较。以下汇总的例字数据均来源于字海官网中州韵版两分法码表5.0,检索结果应该没有重大遗漏: 1️⃣捺笔画编码为「丶」的例字:乂 义 乑 八 刄 发 孓 尺 衣 豖 长 𠆢 𥫻 𩁾 𫝕 𰀠 𰛅 𱍸 𱝪 𲇆 2️⃣捺笔画编码为「水」的例字
【注】「水」字的第二字元编码亦为shui,整体编码为yishui,疑为取「水」的左右合成部件,类似的例字还有其变体「氺」yishui,后者以丶收尾,不编码为dian就是将其左右合成部件视为「水」,因此可以佐证笔者对前者编码规则推测的合理性。 3️⃣捺笔画编码为「捺」的例字
前面提到,字海网拆分字元时均将捺笔画当作【丶】,而从上述罗列的例字看,真正将捺笔当作【丶】的占比并不高,保留原本【捺】的编码数量最多、编码为【水】的次之。官网拆分字元的方法与码表编码实际情况存在较大分歧,编码规则与编码操作思路并不完全一致。 比较两个表格提供的各例字原始编码总条数和现有该编码第一字元不变第二字元为【丶】编码的现有条目总数,可以发现若将这些例字捺笔画原始编码的第二个字元替换为【丶】,其所产生的重码率并不特别严重,在近十万单字的码表中属于正常现象,而且还存在相反的情形即一些例字反而可以倒过来分化原始编码的重码率。由此可以认为,分化重码并非客观和急切需要,之所以出现捺笔画作为三种形态进行编码的现象,应是在编码过程中多次进行规则调整和修正,最后定型的内部规则未能全面落实到码表制作中,或说由于种种原因尚未来得及修改。再者,在对这些例字进行建检索、分析过程中,笔者发现4.0码表和5.0码表在处理捺笔画字元上存在一定差异,有修改、调整现象的迹象,可见在编码过程中存在左右为难的取舍情形。不论如何,还是建议全面统一捺笔画字元编码,以提升输入法的科学性、严谨性与易用性。 总而言之,统一捺笔画字元的编码对输入法在应用层面而言是刚性需求,如果没有其他专业且合理的重要考量,笔者认为不应细分捺笔为三种编码方案,在【丶】和【捺】中人选一个,前者为最佳。 以上拙见或不合时宜,若此,请一笑置之。
|