一个新的汉语语素定义,再谈汉语的语素

一个新的汉语语素定义,再谈汉语的语素

——拼义语言(第10篇)

夏国民

在之前的“拼义语言第6篇”里,笔者解构了“旧的汉语词素说”,质疑过“语言中最小的有意义的单位”这个汉语语素定义,指出《现代汉语词典》上的语素的详细释义“好像是为诠释词而建立的一个概念”,具体解释词往往陷入兜圈子,但没有阐述出应有的新概念,这里再谈谈汉语语素。

不言而喻,任何语言都有各自的语素,这是不可否认的,没有语素就不成其为语言。

那么,对汉语语素应该如何正确认知呢?

笼统地说,汉语语素应该就是语句中所有语言因素的简称。一般来说,汉语语素应该包括语句中所有不同音节的词,而语言因素的核心应该是对词的语义界定。汉语句子是由词组成的,换一种说法也是由语素组成的,汉语语素的界定实际上就是句子分词。反过来说,要正确定义汉语语素,必须紧紧抓住词的语义这个核心。

汉语词最基础最直观的分类方式是按语音音节数量分类,包括单音节词、双音节词、三音节及以上多音节词等层次。

如果按功能架构来划分,汉语词汇应该分为底层词(单音节词)、基层词(双音节词)、复合词(三音节及以上多音节词组)这三个层次。下面分层来说说“应该”。

所谓单音节词,是汉语的基本表意单位(其它语言都没有这个概念),也就是单独有意义的汉字,又称为底层词。常用的绝大多数汉字都是单音节词,数以千计,例如,“你、我、他、她、它”等等。单独没有意义的汉字就不是单音节词,例如,“吖、萄、腌(ā)”,它们必须分别与其它相关汉字结合在一起才能成为词。因此,单音词(底层词)的语义(意思)很容易界定,即使不知道详细的,查一下字典,就能全部知道。

双音词是双音节词的简称,由两个汉字构成或组成,又称为基层词(包括由单独没有意义的汉字组成的词)。例如,“我们、中国、人民、苹果”。语句中的双音词语义应该清晰,代表一个完整的概念,不是随便两个汉字拼在一起就能算数的,有的需要仔细甄别。

比如,林毅夫先生说过:“任何理论其实都是一个简单的逻辑体系,以说明现象背后的因果关系,而且越简单越好。”

假设上面这段话都是由单音节词和双音节词组成,显然,其中就有“任何、理论、其实、都是、一个、简单、逻辑、体系、说明、现象、背后、因果、关系、而且、简单、越好”这16个双音词,剩下的只有“的、以、越”3个不同的单音词,语义都清晰。

通过以上分析,可以初步推断,这些单音词与双音词的语义区别明显,而且这里的双音词都是由单音词组成的。它们都是语句中不同的语言因素(简称语素),这一点是确定无疑的。

汉语中“最小的音义结合体”本来是指单音节词,但由于单音词是语素的主要成分之一,二者容易混淆,因此必须明确说明:单音节词与语素不是对等关系,语素还包括着双音节词等其它多音节词。

在初步确定了单音节词和双音节词是语言因素(语素)的基础上,可以建立这样一个语素新定义:语句中语义完整且不可再分的语言单位。这里“不可再分”的意思是:如果再进一步细分,就将颠覆该词语的语义性质。

按照以上这个语素新定义,三个音节以上的汉语成语都符合语素要求。例如:“门外汉,画龙点睛,树倒猢狲散,九牛二虎之力,心有灵犀一点通。”它们都是结构固定的词语,意内而言外,不可再分。

下面再来说说音译词。

《通用规范汉字字典》的前言里有这样一段文字:“虽然规范字也可以用来作为音化字记写方音和译音,但那只是附加的职能。”简单直白地说,用规范字记写译音只是纯粹利用其音。音化字实际上都是被当作音素用,音译词的所有音素只有作为一个整体才能表达意义,一旦分裂开来就没有意义。也就是说,音译词的语义也是完整且不可再分的语言单位,因此也符合语素新定义。例如,纽约,哈尔滨,乌鲁木齐,布加勒斯特,乌兹别克斯坦,布宜诺斯艾利斯。

从音译的角度,还可以总结说,音译词都是“最小的有意义的单位”。这正好契合了《现代汉语词典》对汉语语素的定义:“语言中最小的有意义的单位”。但是,词典里的语素定义对比前面的“语句中语义完整且不可再分的语言单位”这个新语素定义,并不一致。

其一,前者的范围表述比较笼统,“语言”相较于“语句”是一个宽泛得多的概念。其二,前者存在语境歧义。“有意义的单位”一般的理解是指语义单位,由于语言有语音和语义两个要素,由于英语是多音节单词文字,无需计较单词中“最小的有意义的单位”的语音音节多少问题,但现代汉语中没有多音节单词,单词就是单音节词,因而“最小的有意义的单位”句中含有“最小的语音和语义”意思,可以理解为专指单音节词(例如“人”与“人们”的区别),这就是照搬英语语素定义存在的漏洞(例如解释得了“哈尔滨”是一个语素,却解释不了同为省会城市的“石家庄”),也是汉语词典上“语素与词素释义”存在悖论的原因,这里不再赘述。

论述至此,可以总结一下,针对“单音节词、双音节词、成语和音译词”这4种类型的词语来说,新语素定义并行不悖,包括但不限于“最小的有意义的单位”或“最小的音义结合体”。

进一步而言,对于一般的多音节词来说,只要通得过“语句中语义完整且不可再分的语言单位”的检验,就都是新语素,否则就不是。

比如,“工程师”就不能再分,若分成“工程”和“师”之后,性质就变了;而“总工程师”,就可以拆成“总”和“工程师”,虽然意思不一样了,但“职业”性质没有变;“副总工程师”更能拆,就不用细说了。

需要注意的是,对于任何一个汉语语素来说,语义的整体性都是第一位的,一般的多重复合词都分得开。比如,“航空抗燃磷酸酯液压油”。

新语素定义明确了汉语语素都是不同音节的词,属于句法语言概念。语素就类似于“语义块”,起组成句子和供分析句子结构的作用,实际上能与人工智能的文本token对接。例如,“他喜欢吃苹果”这句话,对人类来说是一个完整的句子;对汉语来说,它是由6个汉字分为“他、喜欢、吃、苹果”4个语素;对AI来说,它可以被视为“他、喜欢、吃、苹果”4个Token。

有研究者说:“中文与AI文本token的深度契合,并非偶然的巧合,而是源于汉语言文字天然的“图像化”与“结构化”特质。这两大特质恰好击中了当前AI技术路线中的核心痛点:语义理解的模糊性、世界建模的高成本、知识迁移的低效率。”

大语言模型是一个在海量多语言数据上训练出来的统计模型,有待中文起更大的作用。可以说,汉语新语素定义是应AI蓬勃发展而生,正所谓“万物随春醒,美好皆可期。”

500

站务

全部专栏