如何解决汉字的快速排序检索?
如何解决汉字的快速排序检索?
——拼形文字(第8篇)
夏国民
汉字数量大、结构较复杂,千百年来一直缺乏一个快速、科学的检字法。常用的几种传统检字法都存在严重缺陷。1、部首检字法归部原则不明确、查字繁琐(需要两次数字画、三次翻页找);2、四角号码检字法歧义性强且规则庞杂;3、笔画序列检字法编码冗长而费时费力;4、音序检字法无法处理不知道读音的字。因而长期以来,人们总是羡慕拼音文字按字母顺序查字快。殊不知,如果单纯讨论查字典速度快,拼形文字是完全可以超越任何拼音文字的。
这里先简单介绍一个名为“汉字字根数码检字法”的检字方案。该方案是用数字代码缩写汉字的方法将汉字数字化,能够同时解决上述传统检字法的四个主要问题。
字根数码检字法是借助目前广泛使用的计算机标准键盘,将除Z以外的25个英文字母键,分为1至9个区,将二百多个字根分布在各个字母键上(字根详细形态另见字根表),检字时用各自的区号代替字根并按规则编四码,在对应的检字表中对号入座查读音。例如“座”字的字根依次是“广、人、人、土”,检字编码是9881,对应的读音是zuò,位列《通用规范汉字字典》第497页。
字根数码检字法是把所有汉字分为字根字和非字根字两种。以下是拆字和编码规则。
(一)字根字,即字本身又是字根,总共有一百多个。例如“日、月、水、火,山、石、田、土”等。
1、字根字的拆字规则:将字根字按笔画顺序拆成“横、竖、撇、点、折”五种单笔画字根。例如,“方”字应拆成“丶、一、乙(折)、丿”四个单笔画字根。这里的拆字,采用的是汉字的第一种拆分方法,即“将汉字拆分为笔画”(前面已详细介绍过)。
2、字根字的编码规则:按笔画顺序编成四个数字码。即主要将笔画“横、竖、撇、点、折”,依次编为1、2、3、4、5。
(1)如果字根字的单笔画字根数(即笔画数)多于四个,取前三个和最后一个进行编码(前三后一)。例如“金”字的检字编码是3411。
(2)如果字根字的笔画数少于四个,则在后面补0至四码。例如“人”字的检字编码是3400。
(二)非字根字,即字本身不是字根的成千上万的大量普通汉字。
1、非字根字的拆字规则:顺序按笔画,简单让复杂,数量要最少,尽量不交叉。此规则可以简称为字根诀,简单解释如下。
(1)顺序按笔画:拆字分字根,按笔画顺序进行。例如“武”字应拆成“二、止、乙(折)、丶”四个字根。
(2)简单让复杂:一般情况下,笔画少的字根要让位于笔画多的字根。例如“美”字应拆成“点撇、王、大”三个字根。
(3)数量要最少:将字拆分后所得的字根数量要求最少。例如“为”字应拆成“丶、力、丶”三个字根。
(4)尽量不交叉:在满足以上条件的前提下,字根与字根之间尽量不要交叉。例如“知”字应拆成“撇横、大、口”三个字根。
上述所称的字根,是指各个汉字中相对简单而且完全符合上述拆字规则的构字单位,一共有两百多个。这里采用的是汉字的第二种拆分方法,即“将汉字拆分为字根”,后续将详细讨论。
2、非字根字的编码规则:按笔画顺序将字根等编成四个数字码。
(1)如果字的字根数量多于四个,取前三个和最后一个(前三后一)进行编码。例如“横”字的检字编码是6618。
(2)如果字的字根数量只有三个,再将最后一笔重复使用一次,作为单笔画字根来加长编码。例如“最”字的检字编码是2554。
(3)如果字的字根数量只有两个,编码先按第(2)条的方法处理后再加0。例如“边”字的检字编码是5940,又如“码”字的检字编码是1510。
如果以字根数码检字法为主,按字根数码的顺序来编排如《新华字典》一样的近万个头字的字典词典,编码从1000排到9999,都能井然有序。这样一来,由于看到任何汉字便能快速读出数码,加之重码字的同码数量比较小,查汉字翻页找,基本上是一次到位,因而原来字典上的检字表都可以淘汰掉。
与拼音文字比较,查汉字将由世界上最困难的查字法变成最简单的查字法。例如,查“书”字,字根数码是5524。
由于0不代表字根,这里每编一个数码仅仅只是从9个阿拉伯数字中挑一个,而且每一个字都只有四个数码。而查英文“书”的单词“book”,每往右推进查找一个字母,要从26个英文字母中挑一个,况且常用单词的字母数平均是在七个以上,查找时间自然比较长。
如果学熟了字根数码检字法(比部首检字法易学),查一个字只需要几秒钟时间,颇具神奇魅力,只有汉字这种拼形文字才做得到。
历来有一种社会现象,我国的大多数成年人都不习惯于经常查字典。为什么呢?主要有以下几个原因。一是根据拼形文字的形态,很多字都能够透过偏旁猜出字的部分意思,例如:囿,很多人不知道该字的准确读音,但从字面上就可以感觉到是被困住了;二是根据词语中的前后字,就能够琢磨出生字的部分意思,例如:浅尝辄止,略微尝试一下就停下来。三是以往的查字方法的确都比较麻烦,人都有不同程度的堕性,对待查字典,很多人采取的态度是得过且过。
补上查字的短板后,养成经常查字典的习惯,自然能够不断提高语言文字水平,无论个体,乃至社会,都值得期待。
下图是字根数码检字法简表,主要是为了方便初学者用于熟悉键盘方位,这里还没有嵌入字根。
(未完待续)