汉字字根数码检字法的基本原理

 ​

汉字字根数码检字法的基本原理

——拼形文字(第9篇)

夏国民

汉字字根数码检字法的基本原理,是综合利用阿拉伯数字排列简单,汉语一字一音读数简单,世界通用的QW计算机键盘布局,依据笔顺规范尽可能地将汉字拆分为“块”,采用数字代码进行编排的方法,深度且简捷地将汉字数字化,从而结束汉字长久以来无法进行有效排序的历史。

数码查字是按照编码的数字顺序直接查找。掌握了字根数码检字法后,针对《通用规范汉字字典》,只要利用对应编排的“字根数码检字表”,定睛一个汉字,无论使用者是否知道读音,立刻就能转换成4个数码,几秒钟就能查到字的准确读音。例如查“刍”字,数码是8510,读chú,位列《通用规范汉字字典》第49页。

500

不仅如此,根据“汉字字根数码检字表”上的读音,要进一步了解字的详细释义,所有含有汉语拼音的字典都能利用。

更进一步,借助“字根数码”教识字,因全部“分块”而易学。例如,将“狗”拆成“犭、勹、口”三个字根,即分为“5、8、2”三块。这是一种简捷的分解式熟记汉字的学习方法,称呼简单,记忆爽快,不拖泥带水。

字根数码便于“识字、写字、检字、打字”四位一体教学。

实际上,汉字字根数码检字法主要是借鉴了王云五先生《四角号码检字法》的数字代码方式,继承了王永民教授五笔字型拆字高效的优点,吸收了笔画检字法拆字易学的长处。下面分别予以简单介绍。

利用阿拉伯数字转换成汉字号码排序检字,始于二十世纪初,当时出现过数十种方法,历史都比较短,其中影响最大的首推四角号码检字法,该方法由王云五先生发明。四角号码完全抛开了汉字的字音、字义,对汉字构形上的解释也与传统汉字分析方式大相径庭,既不考虑字的读音,也不看重字的偏旁,而是假定每一个汉字都有四个角,根据四角形状的局部特征代之以四个数字号码,并按由小到大的顺序排列,查检汉字时按号索骥。歌诀为:1横2垂3点捺,叉4插5方块6,7角八8小是9,点下有横变0头。如果能熟练使用《四角号码字典》,查检速度很快捷,直到现在仍然有人认为是一种很优秀的检字法。例如“轿”的号码是4252,判定四角号码后,按数字顺序直接翻到正文4252处即可找到该字。

五笔字型是王永民教授于上世纪八十年代初发明的一种汉字输入法,以高效拆字著称,是将大多数汉字的常用形旁和笔画相对较少的字或构形作为字根,用以分解汉字,故能够快速还原(打字)。

笔画序列检字法是根据单字笔画数量的多少和横竖撇捺折五类笔画的先后顺序来查检汉字,其方法建立在笔顺基础知识之上,由于有规律可循,容易学习,不易忘记。

在借鉴、继承、吸收以上三种方法优点的同时,字根数码检字法克服了四角号码检字法歧义多、笔画检字法查字太慢、音序法依赖音、部首查字法繁琐的缺点。

首先,详细说一下四角号码检字法的缺点。

由于汉字形体千差万别,结构多样,形状不规则,对汉字四角笔形的认识理解,往往会因人而异。如果使用者的理解认识与《四角号码字典》编者的认识不一致,查错一个角,就可能找不到要查找的汉字,何况汉字四角都有查错的可能性,缺点显而易见。

    1、歧义性强。四角号码的歧义性突出表现在以下三个方面。

    一是认知模糊。例如“戏”字,其四角号码是1345,规定左上角处理为横1,右上角为点3,左下角为叉4,右下角处理为插5。但“风”字是7721,左下角为垂2,右下角却规定处理为横1。不难看出,“戏、风”二字两下角笔画都相同,而编码不一样。

    二是规定不一。四角号码既规定用过的笔形后角作0,又规定一笔可以分角取号,自相矛盾。例如“扎”字的四角号码是5201,其中提手旁左上角取号插5,左下角笔形算用过作0处理;而右偏旁右上角先取了2,右下角却又取1即没有作0处理。

    三是取笔牵强。四角号码有些字的取号角形不易理解,例如“筹”字,号码是8834,左下角取笔形点,令人迷惑,取插5或取垂2,似乎都比居中取点3更为合理。

    关于四角号码的歧义,早在1928年万国鼎先生就指出:“四角亦非固定基础。虽有人为的规定,颇涉细碎,易生误会。”

    2、离散性差。

    四角号码检字法对汉字的排列从0000开始至9999结束,理论上能够排列一万个汉字不重复。但由于汉字中很多字四个角中有三个角甚至四个角相同,号码分布不均匀,编码雷同现象比较普遍。例如“病”的四角号码是0012,其外围“疒”就占据了三个角,故前三个号码都是001,至使大量的同类字只能靠右下角的不同笔形,才能在编码上有所区别。根据对2004年出版的“第10版《新华字典》大字本”其中所附的“四角号码检字表”进行统计,在该字典所收7830个头字中,有38个字的号码都是4422,编码4422是其中重码字最多的号码,另有7个编码重码字都在31个以上,有109个编码的重码字都在11个以上。

    为了增加离散性,四角号码检字法除按规定编完四角号码后,还另外加一个附号,实际上四角号码检字法各字都有五个号码。但即便增加附号进一步处理,象“几、凡、风、凤、凰、夙、肌”等七字,不仅四角号码7721一样,第五个号码还都是一样为0。

3、规则太多。

四角号码检字法除主要表格和口诀外,查字方法另外还有十五六条详细规定,每条规定之下都各有一串典型的不同字例示范。以上还不包括“新旧检字法比较”所列主要修改的五个项目,后者除有一页说明外,还有长达八页的新旧号码对照表。

人类大脑的记忆能力有限。四角号码检字法附带了太多的规则,仅用于查字,即使熟练掌握了,也容易逐渐生疏。

其次,再说说笔画序列和音序检字法。

笔画序列检字法是按笔画数的多少排列,现在改进了的方法是,首先数单字的总笔画数,第二步找到对应的笔画数页面,然后根据前两笔不同的二十五种形式分类(按一、丨、丿、丶、乙依次排列)里面去找。由此可见,以全笔画按笔画顺序排列作为查字法,使用效率仍然较低。

音序检字法对待多音字,是根据读音将字分别放在不同的页面。我国大陆目前使用的字词典,其正文内容大多是以汉语拼音字母顺序来排列的。对于不知道读音的字,音序检字法无能为力,这是其主要问题。

另外,母语为汉语的大多数人实际上只识字四千个左右,《新华字典》中差不多有一半的字不是真正认识。音序法需要读准字音才能查字义,受方言影响,很多人使用时有障碍。加之汉语同音字太多,例如在第11版《新华字典》中yi的同注音字是148个,在众多同音字中要找到所查的字,并不是很容易。

站务

全部专栏