阅读上一个主题 :: 阅读下一个主题 |
作者 |
从英语背单词难谈到汉语以字组词的优缺点(2) |
 |
吴耐 [个人文集]
加入时间: 2004/03/06 文章: 1164
经验值: 54086
|
|
|
作者:吴耐 在 驴鸣镇 发贴, 来自 http://www.hjclub.org
从自然语言,人造语言,编程语言的对照,说到汉语,英语的优缺点比较(4)
7.3. 用集合论来探讨单词的含义
下面我们考察一下单词的含义是怎么回事。比如说,名词是某个事物的名称,形容词是事物的某种属性,动词是事物变化或者运动的名称,副词是这种变化或者运动的属性等等。不过我认为,如果使用数学上的集合论的知识来描述单词,可能有助于对单词的含义有一个更加准确的理解。我们不妨把名词分为普通名词和专有名词。从集合论的角度来说,普通名词无非是集合的名字,专有名词无非是元素的名字。比如,“人”这个普通名词,就是一个集合的名字,这个集合含有(has)了世界上所有的人在内。“张三”这个专有名词则是“人”这个集合中的一个元素的名字。同样的“狗”,“猪”,“羊”,“虫”,“鸟”,“动物”等等都是普通名词,都是集合的名字。
当然名词不光包括专有名词和普通名词,还包括代名词,抽象名词等等。这些我们暂时不去管它,对我们下面讨论的结果应该没有影响。
既然是集合,那么集合论中所探讨到的集合之间的关系,对集合进行的操作或者运算就都是可以运用到单词上的了。两个集合之间可以存在两种关系:父子关系和补充关系。如果集合A包含(imply)集合B,那么我们可以说集合A是集合B的超集,集合B是集合A的子集。这就是父子关系。比如“动物”集合包含了“人”,“狗”,“猪”,“羊”等集合。按照集合论的说法,“动物”集合是“人”,“狗”等集合的超集,“人”“狗”等集合是“动物”集合的子集。
如果在一个全集里,集合A与集合B合并在一起,正好等于这个全集,并且集合A与集合B没有任何共同的元素,那么这两个集合之间具有补充关系。集合A是集合B的补集,集合B是集合A的补集。比如,“生物”和“非生物”相互为补集,“有机物”和“无机物”相互为补集,“有理数”和“无理数”相互为补集。当然,在我们说补集的时候,一定不要忘了全集是什么。比如,“有理数”跟“无理数”的全集是“数”,“生物”跟“非生物”的全集是“物”。
子集的子集仍然是子集关系。比如“狗”是“动物”的子集,“动物”是“生物”的子集,显然,“狗”也是“生物”的子集。
除了关系,还有操作或者运算。我们可以对两个集合实施“交”或者“并”运算,从而得到两个集合的“交集”或者“并集”。这个交集或者并集是前两个集合之外的第三个集合。比如说,如果“华人”是指拥有华裔血统的所有人的集合,“美国人”是指拥有美国国籍的所有人的集合的话,那么“华裔美国人”就是指的这两者的交集。这里不管“华裔美国人”是一个单词还是一个短语,它所代表的含义就是这么一个交集。
当然,从关系的角度看问题,运算也构成一种关系,不过是三个集合之间的关系。如果集合C是集合A与集合B实施“交”运算得到的结果,也就是交集,那么我们可以说C与AB之间存在“交集”关系。同理,“并集”也是一种关系。
两个集合可以实施“交”或者“并”运算,多个集合也可以实施这两种运算,来得到一个新的集合。比如“华裔美籍物理学家”就是“华人”,“美国人”和“物理学家”这三个集合的交集。
我们再来看形容词。“公”“母”作为形容词用,描述了动物性别这一属性,是性别这一属性的“属性值”。如果把性别这一属性的所有属性值放在一起组成一个集合,那么这个集合可以叫做“动物性别属性值”集合。同样的,“红绿蓝白黄黑”等等颜色组成的集合就是“颜色属性值”集合。
我们也可以从另一个角度来看待形容词。我们可以把形容词看作是一个集合的名字。这个集合可以描述为:拥有该属性的所有事物所组成的一个集合。比如,“红”可以解释成是拥有“红”这个属性的所有事物组成的集合的名字,这时,“红”实际被解释成了“红的东西”。这个集合包含了红牛,红马,红狗(世界上有红狗吗?),红线,红花,红太阳,红笔,红墨水,等等所有红色的东西。这被叫做形容词的第二种解释。
一个形容词与一个名词如果组成了一个新的名词,那么这个新名词将是原名词的一个子集。比如“母狗”是“狗”的一个子集。用形容词的第一种解释,可以说形容词就像一把分割尺,是专门用来分割名词集合的,分割出来的集合当然是原集合的子集。如果从形容词的第二种解释出发,新名词可以看作是原名词所对应的集合与原形容词所对应的集合的交集的名字。比如,“狗”是一个集合的名字。“母的”是另一个集合的名字,这个集合包含了所有具有“母”这个属性的事物,包括了母狗,母猪,母羊,母语(此处搞笑了:有“公语”吗?“母语”的“母”跟“母狗”的“母”含义是不一样的)等等。“母狗”可以看作是“狗”这个集合和“母的”这个集合的交集的名字。
动词也可以看作是一个集合的名字,不过这个集合包含的是一类动作。比如“走”,“跑”,“跳”,“动”等。“你走”,“我走”,“他走”,每一次“走”都是一个行动的实例,是这个集合的一个元素,包含所有这些实例或者元素的这个集合的名字就是“走”。跟名词集合不一样的是,动词集合含有的元素都是具体的动作。动词集合之间也有包含关系。比如“动”包含“走”,“跑”,“跳”等等。
副词则是描述动词集合(或者形容词集合,副词集合)的属性的属性值。比如“快”,“慢”等是频率属性的属性值,可以用来描述“走”,“跑”等集合的属性。跟形容词一样,副词也可以有第二种解释,就不多说了。
副词可以与动词组合生成一个新的动词。比如“慢跑”,“小跑”等。按照副词的第一种解释,这个新动词所对应的集合将是原动词所对应的集合的子集。按照副词的第二种解释,这个新动词是原动词所对应的集合与原副词所对应的集合的交集。
用面向对象的编程语言中的术语来说,普通名词相当于类名,专有名词相当于对象名,动词相当于函数名。但是形容词和副词在编程语言里并没有对应的术语。
7.4. 利用集合之间的关系组词
由上分析可知,集合之间是有一定的相关关系存在的,而不是相互孤立的。对于只涉及到两个集合的关系,我们有,某个集合是另一个集合的子集,或者超集,或者补集这些关系存在。对于涉及到三个或者多个集合的关系,我们有,某个集合是另两个集合的交集,或者并集等等这些关系存在。因为集合的引入本来就是为了精确的表达单词的含义的,所以说单词的含义之间也就是存在“关系”的,或者简称为,单词之间是存在“关系”的。
在以后的论述中,为了省事儿,少写点儿字,当我说单词A是单词B的子集的时候,意思是单词A是集合A的名字,单词B是集合B的名字,集合A是集合B的子集。同样的说法也将用于交集和并集等的描述。以后就不再说明,请各位看官牢记这种说法,不要在我这么说的时候,以为我犯了语病才好。
既然含义之间有关系,我们就要问了,我们能不能对那些在含义上有关系的单词,在他们能所对应的词形或者读音之间也建立一种关系,从而使得我们能够,在知道了单词A的含义与词形或者读音之间的映射之后,能够自动推导出与单词A有关系的单词B的含义与词形或者读音的映射?如果能够做到这一点,在我们记住了单词A的含义与词形读音的映射之后,我们就不需要再花同样多的时间去死记硬背单词B的含义与词形读音的映射,从而节省一定的记忆量。例如,如果我们知道了“狗”这个词形所对应的含义,以及“母”这个词形所对应的含义,那么我们就可以推断出“母狗”这个词形所对应的含义。这样当我们记住了“狗”和“母”这两个单词的含义与词形读音的映射,就不用再去花时间单独记忆“母狗”这个单词的含义与词形读音的映射了。这就要讲到合成词的问题了。
下面我们用集合论的知识来研究一下“以字组词”或者“以词组词”的问题。在汉语里,一般是以字组词,在英语里,则是以词组词,也就是合成词。
先来看看名词的交集并集关系。两个名词合成在一起,可以表示由这两个名词所对应的集合的交集或者并集。为了区分是交集还是并集,最好是在新生成的单词中插入一个字节或者字母,这个插入的字节或者字母叫做关系符。举例说明,“草木”是指的“草”和“木”的并集,“华裔美国人”是指的“华人”和“美国人”的交集。为了准确的知道每个合成词与原来单词之间的关系,我们可以加入不同的“音节”或者“韵母”来区分。比如,交集用“交”或者“a”,并集用“并”或者“o”。这样,“草木”在汉语里可以表示为“草并木”,在英文里可以表示为“grassotree”,“华裔美国人”在汉语里可以表示为“华裔交美国人”,在英语里可以表示为“Chinese-a-American”。英语可以插入一个字母解决问题,汉语就比较麻烦,很难插入单个字母,而必须插入一个汉字才行。这样无形中增加了单词的长度。所以,这种在单词之间插入关系符的做法比较适合西方的拼音文字。尤其建议在世界语这种人造语言中推广。
但是在实际上,在自然语言中,不管是汉语还是英语,往往为了效率,为了不增加单词的长度,而省略掉关系符。这就造成了合成词的语义模糊性。合成词语义的真正含义有时候可以从合成它的原单词的含义正确的猜测推导出来,有时候却无法这么做。比如“草”和“木”是没有交集的,所以“草木”只能是他们的并集,不用写成“草并木”也能够猜出来。但是“ChineseAmerican”则有可能是指某个人既是华人也是美国人,也有可能是指一个人是华人或者美国人。比如汉语中的“欧美人”就是说的一个人是“欧洲人”或者“美洲人”。汉语中为了区分是交集还是并集,往往用“裔”和“国”来帮助。比如“欧裔美国人”和“欧美人”的含义是不一样的。英语中则往往用“and”或者“&”来帮助区分。比如“ChineseAmerican”和“Chinese&American”含义是不一样的。
以上是说两个名词的情况,两个动词的情况要好一点,因为两个动词合成在一起往往代表由这两个动词所对应的集合的并集,而不是交集。比如“打磨”是“打”和“磨”的并集。
一个形容词与一个名词只能合成由这两个单词所对应的集合的交集。因为并集没有意义,很难把一个名词的含义跟一个形容词的含义合并在一起。比如“母狗”只能是“母的东西”和“狗”的交集,不会是并集。但是,形容词加名词组合成新词仍然可能会导致模糊性,这主要发生在当一个形容词分别在两种不同的属性中做属性值的时候。比如“黄牛”可以有两种含义,一种是“黄种牛”,一种是“黄色牛”。“黄”即可以在“颜色”这个属性中做属性值,也可以在“种属”这个属性中做属性值。“大熊猫”可以有两种含义,一种是从种类上说的“大种熊猫”,一种是从个体上说的“长的个大的熊猫”。要想消除这种模糊性,也需要插入字母或者字节来区分。比如按种类来分的,一定要插入“种”字或“型”字,说成“黄种人”,“黄种牛”,“大种熊猫”或者“大型熊猫”等等。当然也可以换一些词来描述,比如“庞熊猫”,“侏熊猫”来代替“大种熊猫”,“小种熊猫”的说法。
一个副词与一个动词只能合成由这两个单词所对应的集合的交集,因为并集没有意义。比如“慢跑”,“跳高”等等。不多罗嗦了。
一个副词与一个形容词或者另一个副词只能合成有这两个单词所对应的集合的交集。比如,“崭新的”,“全新的”,“极大的”,“特快的”等等。也不多说了。
以上只是探讨了两个单词合成一个新单词的情况。当多个单词合成一个单词的时候,长度问题就出现了。比如多个名词合成一个新名词,很可能这个新名词的长度太长,不符合单词要简短,行文要高效的要求。比如“母狗”,“黑狗”还行,“黑母狗”就有点长,但是还可以接受,“瘦黑母狗”作为单词就有点太长,难以接受了。“聋子”,“哑巴”合成“聋哑人”还可以接受,如果再加上“瞎子”,变成“瞎聋哑人”就有点长了,只能用“残疾人”来替换了。所以多个单词的“合成”是有局限性的,不是可以无限制地进行下去的。
以上讨论的是两个或者多个单词合成一个单词的情况,讨论的是交集和并集的关系。我们还可以用一个音节或者字母加一个单词合成一个新单词,这个新单词是原单词的子集。当然,如何集合A是集合B的子集,那么集合B也就是集合A的超集。所以研究了子集关系,也就搞清了超集关系。比如,“芒果”是“果”的一个子集,“果”是“芒果”的超集。“芒果”中的“芒”只能看作是一个无意义的音节,而不是另一集合的名字。再比如“几唯果”中的“几唯”也只能当作是无意义的音节,实际上这个词是从英文单词kiwifruit一半音译一半意译这么翻译过来的。
古汉语中的形声字许多都可以这么来看待。例如,“银铜铁锡铅钢”都拥有“金旁”做形旁,他们都是“金”(意思是金属)的子集。对照一下英语,“silver,bronze,iron,alumni,lead,steel”。在这些汉字中,声旁是没有含义的,或者说声旁的含义在组字时是不起作用的。比如这些汉字中的声旁“艮同失易冈”只是表示原汉字的发音,而在含义方面没有给予原汉字任何贡献。再比如,“杨柳榆槐松柏”这些汉字的形旁都是“木”,“木”也就是“树木”的意思。显然,从含义上讲,“杨柳榆槐松柏”都是“木”的子集。对照一下英语,“popular,willow,elm,pine,cypress”,可以看出这种造字方法是多么有利于初学者学习。这种造字方法,就像图书馆里把描述所有植物的书放在同一个书架上,然后给书架贴上一个“树木类”的标签一样。这么做的好处是,1)当一个人第一次学习的时候,虽然不知道这个汉字的具体含义,但是至少能够从形旁上猜测出来这个汉字是一种树木的名字,也就是那个知道这个汉字的超集的含义,这相当于知道了含义的“一半”。2)当了解了这个汉字的具体含义之后,后来又忘记了具体含义,还可以通过偏旁提示一下。通过偏旁知道了超集的含义,再从超集的含义回想起具体的含义,总比没有任何线索来得到具体含义要容易的多吧。3)写汉字的过程,其实是通过映射关系,从词义得到词形的过程。在写汉字的过程中,从单词的具体含义,想到超集的含义,再从超集的含义到形旁的映射得到形旁,这就相当于得到了单词词形的“一半”。再根据读音得到另一半词形也要相对容易的多了。所以说,形声字造字方法对于双向映射的记忆都有帮助。
再来看看现代汉语。现代汉语试图用多字词来代替单字词,减少同音字使用的机会,并试图将书面语与口头语统一起来。同时,现代汉语也继承了古汉语的某些优点,能够减轻人们的记忆负担。比如,用“杨树,柳树,榆树,槐树,松树,柏树”这些二字词来代替古汉语“杨柳榆槐松柏”这些单字词的表达方法,一方面减少了同音词出现的可能性,另一方面也继承了单词含义之间的子集超集关系,使得这些单词与“树”这个单词建立了一种子集超集关系。当然,因为现代汉语继承了古汉语的所有汉字的写法,所以“杨柳榆槐松柏”这些汉字在组成二字词的时候,仍然携带着表意的形旁。其实这些形旁在二字词里是完全可以省略掉而不会产生含义上的歧义性的。如果现代汉语进一步简化,使得这些双字词的第一个汉字只是表示音节,而不含有任何含义,那就更完美了。这样,“杨树,柳树,榆树,槐树,松树,柏树”可以写成“yang树,liu树,yu树,huai树,song树,bai树”(注意要加声调才行)。做这种简化,即不会导致含义方面歧义性的增加,也不会导致读音方面同音词的增加,因为这些二字词里有个“树”字在帮助我们区分含义和读音。再比如,“苹果,芒果,椰果,腰果”都是“果”(果树或者果实)的子集,对照一下英语,“apple,mango,coconut,cashew”,就知道现代汉语的这种造词方法是多么有利于学习和记忆。再比如,“运动,活动,抖动,颤动,摆动,流动,走动,跑动,跳动,滑动,暴动”等等都是“动”的子集,代替古汉语的“运,活,抖,颤”等来减少同音现象,对照一下英语,“sports,activity,quiver,tremble,swing,flow,walk,run,jump,slide,rebel”。“红色的,蓝色的,绿色的,黄色的”等等都是“色”的子集,代替古汉语的“红蓝绿黄”来减少同音现象,对照英语,“red,blue,green,yellow”。还有,“水牛,黄牛,奶牛,北美野牛,牦牛”等等都是“牛”。“驷马,驸马,马驹,骀马,骈马,骏马,骒马”等等都是“马”的子集,代替古汉语的“驷驸驹骀骈骏骒”来减少同音现象。
最后考察一下英语。虽然大部分英语单词之间词形上看不出任何关系,但是也有不少单词是例外。比如“highway”,“freeway”,“expressway”,“driveway”都是“way”的子集,“football”,“basketball”,“volleyball”,“softball”都是“ball”的子集,“strawberry,blackberry,gooseberry,blueberry”都是“berry”的子集,等等。
对于两个集合来说,除了子集关系,还有补集关系。在汉语中,一个单词的补集一般用前头加“非”,“不”,“无”或者“否”来得到这个单词的补集。例如,“生物”的补集是“非生物”,“马”的补集是“非马”,“好”的补集是“不好”,等等。在英语里,一般是在一个单词的前面加某个前缀的办法来得到它的补集。比如“non-toxic”,“non-standard”,“non-member”,“abnormal”,“irregular”,“illegal”, 等等。
7.5. 关系的滥用
(未完待续)
作者:吴耐 在 驴鸣镇 发贴, 来自 http://www.hjclub.org |
|
|
返回顶端 |
|
 |
|
|
|
您不能在本论坛发表新主题 您不能在本论坛回复主题 您不能在本论坛编辑自己的文章 您不能在本论坛删除自己的文章 您不能在本论坛发表投票 您不能在这个论坛添加附件 您可以在这个论坛下载文件
|
based on phpbb, All rights reserved.
|