如果按笔画顺序拆字,就必须突破囗这个沿用了千年的传统部首框框,谈汉字字根的筛选

 

谈汉字字根的筛选

——拼形文字(第16篇)

            夏国民

(本文始发于微信公众号“中文分说”)

引入字根概念用于拆字,目的就是为了尽可能地快速分解,并以此促进汉字易学。在解决按笔画拆字效率慢的同时,需要反复权衡学习的难度和应用的方便。字根是汉字零件和部件的统称,自第8篇始,多篇都曾零碎地涉及了汉字字根的筛选,这里是专门论述。

为了追求拆字、检字和打字的高效率,在字根筛选的过程中,控制字根数量和尽量减少重码,需要采用大量的“拆字比较实验”来确定,舍此别无它法。减少重码不仅仅是针对单字,字母编码中的常用词往往是重点关照的对象,后者需要数以万计的词条编码数据来予以支持,比如对“不、大”的处理。筛选的基本原则是以形为主,兼顾字理,不是以传统字理为主。

汉字的零件是单笔画,汉字的部件是由两个以上笔画构成的固定形态。所谓的字根筛选,实际上主要是部件的优化。面对常用的3000多个汉字,即使从来没有学过五笔的人,只要理解“现代汉字主要是由一些笔画简单的汉字和常见的偏旁构成的”这一基本道理,对大多数汉字的字根都能分得出来。

如果在小学汉字偏旁概念教学阶段,同时教学字根概念,不仅不会产生矛盾,还能相互强化,促进识字教学。

上世纪八九十年代王码五笔风行多年,最主要的原因就是基于五大笔画分类,将字根映射到键盘区域,抓住和展现了利用字根拆字和打字效率高的优点,其次则是那时的拼音输入法效率实在太低,在一定程度上衬托了王码优秀。

进入二十一世纪以后,音码输入法快速迭代,迅速成为主流,而形码输入法则没能跟上智能时代步伐,逐渐式微。但是,王码五笔输入效率高的优点,一直到现在都否认不了。

音码在智能方面暂时领先,但在根本上没有唯一性,因为基本面上的编码位置比较少,先天不足,输入主要靠按音打了再找,实际上是“选字法”。就智能习惯性输入短期记忆而言,音码与形码比,并没有优势可言,形码是开发滞后了。

下面是五笔与同为形码的郑码和苍颉码的简单对比。

郑码的字根比较多,有360个,而且多数是双码字根,还有一些是三码字根,记忆量太大。

苍颉码字根比较少,只有108个,但编码时却先要把汉字拆分成“字首”和“字身”两部分,再分别编码,比较烦琐。

五笔字根表中是197个,按通用键盘分区排列,字根与编码直接对应,能给人直接了当之感。

有人说王码五笔学习门槛高,客观上阻止了很多学习者。也有人说是音码植根于汉语教学之初,主要得益于课堂拼音教学之便,而学五笔需要在课堂外花时间。这两种说法都比较客观,值得反思,都有改进的空间。

当下,我们仍须直接面对这样一个问题:无论形码还是音码,到目前为止都还没有彻底解决语文教学中的根本问题,即识字、写字、检字、打字“四位一体统一模式”仍悬而未决。实际上,在汉语教学中,音和形犹如两条腿走路,缺一不可。“识、写、检、打”四位一体的统一,是上世纪末有关部门制定的语文教学计算机应用总目标。几十年来,各式各样的探索之路都没有走通,主要原因在于思想障碍,为什么不能在前人已经筑好的基础上继续创新呢?

所有形码方案都必须拆字。按笔画顺序拆字,应该是唯一正确的方法,否则难以服众。因为笔画顺序是学习汉字的基础知识之一,舍此别无它途。以往大陆和台湾都有“根序”一说,这就意味着还各自另有一套,很多字的“根序”必须重新学习和硬记,免不了有自说自话之嫌。因此,笔者提出“顺序按笔画”作为拆字第一规则,就补上了王码五笔的一个主要短板——被人诟病的“不规范”问题。

例如“武”字,需要严格按笔画顺序拆成“二、止、折、丶”,而不是以往的“一、弋、止”。

关键在于,如果严格按笔画顺序拆字,就必须突破“囗”这个沿用了近两千年的传统“部首”框框,即前两笔跟最后一笔分离。但对把持者来说,这是不可接受的。

另外,为了严格按笔画顺序拆字,还需要增加“可、必”这样能够避免引起笔画混乱的字根字。而裁减王码五笔“共的前四笔”即“草头加一横”这个字根,则是兼顾字理、用以避免“荆、莱、芜、芙、茉”这些字在拆分时“前拉后扯”的必要之举。

总而言之,严格按笔画顺序拆字,是新方案有别于王码五笔拆字的主要创新点之一。当然,字根数码检字法本身就是创新。

就编码而言,字根数码检字法是字母编码输入法的简化版,但所选字根都是统一的,拆字方法自然也一样。

为了进一步提高拆字效率,与86版五笔相比,新方案一共增加了48个笔画比较多的字根,特别是增加了“不、兀、束、医、可、毛、乍、丘、隹、午、州、必、爿、母”这十几个字根字;不过,同时也减少了“囗、已”等26个字根;此外,还移动了22个字根,挪动最多的是点区向竖区移动的近10个以竖笔起头的字根。因而字根变动数量加在一起将近100个,变化比较大。

500

按确定的数据统计,字根实际上是添加了22个。另外,按25键计算,字根总数275,平均每键正好是11个。其中的每一个字根,都通过了严格的筛选,至于是否都经得起时间考验,则另当别论。

站务

全部专栏