海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: 从英语背单词难谈到汉语以字组词的优缺点(1)
回复主题   printer-friendly view    海纳百川首页 -> 驴鸣镇
阅读上一个主题 :: 阅读下一个主题  
作者 从英语背单词难谈到汉语以字组词的优缺点(1)   
吴耐
[个人文集]






加入时间: 2004/03/06
文章: 1164

经验值: 54086


文章标题: 从英语背单词难谈到汉语以字组词的优缺点(1) (1082 reads)      时间: 2009-10-23 周五, 上午1:44

作者:吴耐驴鸣镇 发贴, 来自 http://www.hjclub.org

从自然语言,人造语言,编程语言的对照,说到汉语,英语的优缺点比较(3)


7. 从英语背单词难谈到汉语以字组词的局限性

我们知道,语言的基本单位有篇章,段落,句子,短语,单词,音节和字母。字母是最小的语言基本单位。但是单词是表达含义的最小语言单位, 因为字母和音节并不表达含义。英文里“I”和“a”同时既是字母,又是单音节,又是单词。汉语里“字”兼有字母,单音节和单词的三重功能。

音节是由字母组成的,单词是由音节组成的。按照单词中音节的多少可以分为单音节单词,双音节单词,三音节单词等等。字母的数量是有限的,比如英文字母只有26个。音节的数量在一种语言中也是有限的。比如在英语中有1200左右,在汉语中有1600左右,实际用到的不到1200个,在日文中有50个(没学过日文,请留日大贤指教),等等。单词是由一个音节,两个音节,三个音节,或者任意多个音节组成的。因为音节(指不同的发音)的数量是有限的,所以由N个音节组成的单词数量也是有限的。比如单音节单词在英语中最多有1200个,双音节单词最多有1200x1200=1,440,000个,三音节单词最多有1200x1200x1200=1,728,000,000个,等等。汉语当然也是有类似的情况。

我们又知道,世界上的“含义”有无穷多,在人类的生活中需要表达的含义也要有千千万万,尤其是现代社会以及将来,人类的活动范围越来越宽广,人类对世界的认识越来越深入,需要表达的含义和概念越来越多。

假设每一个单词只表达一个含义,不同的含义都用不同的单词来表达,那么只要不限定单词的长度,我们就可以得到无限多的单词。用无限多的单词来表达无限多的含义,在理论上是完全可行的(possible)。

7.1. Length Matters

前面已经说了,单词是表意的最小单位,既然“最小”,那就说明还有不是“最小”的其他表意单位。比如,“短语”也是表意的一种语言基本单位。短语是介于句子和单词之间的一种单位。短语一般是由几个甚至几十个单词组成的。比如“laser”是单词,它是短语“light amplification by stimulated emission of radiation”缩写而成的。这个单词和这个短语表达的含义是一样的。

既然短语能够表达同样的含义,为什么人们还要把短语缩短成单词来用呢?当然是为了效率。我们知道,语言是用来表达,传播和交流信息的。语言如果通过口头来表达,那是要占用一定的时间的;语言如果通过书面来表达,那是要占用一定的空间的。表达同样多的信息,达到同样的目的,当然是占用的时间和空间越少越好。从读写的角度看,组成单词的字母越少越好。从听说的角度讲,组成单词的音节越少越好。我们可以仿照香农定义“信息熵”那样,把单位时间或者单位空间所准确传播的信息量定义为“信息效率”。这里特别强调一下“准确传播”,就是在传播过程中不失真,接收者能够正确的接受。如果一个人说话太快,造成听话人根本听不清,那就不是“准确传播”。

当然每个人说话的速度不一样,听话人的接受能力也不一样,信息效率要受到信息发送者和接收者的能力的影响。但是我这篇文章不是探讨个人能力问题,而是考察不同语言的信息效率问题。比如说我要比较汉语和英语的信息效率,我不能比较某个中国人和某个美国人的说话的速度,而是比较所有中国人说话的平均速度和所有美国人说话的平均速度。或者反过来说,平均看来,用同样多的时间,是用汉语表达或者传播的信息多呢还是用英语传播的信息多?

实际上,我这篇文章也不是要比较不同语言的信息效率,而是要比较同一种语言中,不同的语言单位的信息效率有什么不同,主要是比较单词和短语的信息效率问题。一般来说,表达同样的含义,单词要比短语的信息效率高。但是也不一定,如果一个单词很长,比短语还长,那么效率当然就要比短语低。当然,如果一个表达同样含义的单词比短语还长,我们尽可以在说话或者写作中使用短语来代替那个单词。

以上是说在静态情况下。“静态情况”是说在一片文章中,或者在一个语境中,所有的含义出现的机会都是一样的,比如在词典中。“动态情况”是说在某篇文章,或者某种语境中,有些含义出现的就会多,有些含义出现的机会少。在动态情况下,为了提高信息传播效率,出现机会比较多的含义应该用效率比较高的短单词来表达,出现机会比较少的含义应该用效率比较低的长单词来表达。偶尔用几次的含义则完全可以用短语来表达,而不需要再创造一个对应的单词。只有这样写出来的文章,说出来的话语,其信息表达传播和交流的效率才会最高。比如,在一篇数学论文中,“点线面整数函数”这些单词出现的机会就比“诗词歌赋”这些单词出现的机会多。

当然,一个单词或者含义出现的几率也会随着时间的变化而变化。比如,文革时期的中国,经常出现的“革命”,“打倒”,“打翻”等词汇现在出现的几率就少多了。新名词比如“互联网”,“电脑”,“手机”等等出现的几率将会增加。而“电视”,“报纸”,“电报”等词汇出现的几率将会减少。

一般来讲,常用的单词不能太长,一般由一个到4个音节组成。个别的常用单词音节数超过4个。例如中文里的“马克思主义”,“人民代表大会”等等。在英文里,“investigate”,“congratulation”,“telecommunication”等等都是常用的长单词。

拉丁语我没有学习过,只是在网上看到过一些介绍。据说拉丁语很科学很严谨,任何一种植物,从这个植物的名称里你就能够知道它属于哪一科哪一门哪一种。可是这么一来,也搞得单词其长无比。据说拉丁语之所以变成了一个死语言,就是因为它的表达效率很成问题。说个笑话,比如情人节到了,你拿着一朵玫瑰花去敲情人的门,情人打开门,你说,“送你一朵玫瑰,祝情人节快乐。”情人接过花,果然很快乐。如果你用拉丁语,情人打开门,你说,“送你一朵植物界,被子植物门,双子叶植物纲,蔷薇目,蔷薇科,蔷薇亚科,蔷薇属,玫瑰种的红色玫瑰,…”,话没说完,情人哐当一声把门关上了。这不误事了吗?所以说,在语言交流当中,单词的长度很重要,“length matters”。只考虑严谨不考虑效率是不行的。

这个笑话是很久以前在网上看到的,但是具体内容记不住了。老芦指出,拉丁语不是这样给植物命名的。所以应该不是拉丁语的笑话,让我张冠李戴到拉丁语的头上了。我也懒得去查原文出处,大家只要领会意思就行了。


7.2. Organization Matters

人对单词的记忆实际上包含两部分。一部分是记住单词的词形到含义的映射关系和发音到含义的映射关系,这一部分主要用于在听读的时候可以从听到的发音或者读到的词形联系到它的含义。另一部分是记住单词的含义到词形和含义到发音的映射关系,这一部分主要用于说写时可以快速的从含义查找到词形和读音。也可以看作是两个方向。一个方向是从词形读音到含义,是听读过程;另一个方向正好相反,是从含义到词形读音,是说写过程。记单词需要记住的是双向的映射,光记住单向的映射是不够的。至于词形跟读音之间的映射关系,词形是直接与含义建立映射,还是先与读音建立映射,再通过读音间接与含义建立映射,本篇暂不探讨。

我们知道人的记忆力是有限的。人的记忆似乎跟电脑不一样,人通过联系来记忆东西比孤立的死记硬背要深刻持久。面对成千上万的单词,如果这些单词之间没有任何联系,那么这对人来说是一个巨大的负担。我们用图书馆来做比方,你去图书馆查资料看书,这些书没有分类排列的话,哪一本书放在什么地方,你必须一本一本的记住。这对于人来说显然是一种巨大的负担。书的内容与该书所放置的地方的关系就很类似单词的含义与词形或者读音的关系。如果图书馆的所有书籍资料都是经过了分门别类的整理,使得一本书的内容与地方的关系跟另一本书的内容与地方的关系之间建立了一种相关性,那么通过书的内容找到该书所放置的地方,或者通过地方找到书的内容都会变得容易快速的多。比如,图书馆常用的办法是按照书的内容来分类,然后把同一类的书籍放在同一个书架上。比如按照学科分类,把所有天文学相关的书籍放在某个书架上,把所有数学相关的书籍放在另外一个书架上,等等。那么我们是否可以对单词进行类似图书馆的整理分类工作呢?如果可以,那么应该如何进行这种分类呢?这就需要首先研究清楚单词的含义之间是否存在相关性,以及某些单词是否可以按照含义划归为同一类。

再拿家务事来帮助理解一下。成了家的人都知道,家里头买了很多东西,有不少电器,插座,有针头线脑,有孩子的玩具,有文具用品,有体育用品比如篮球羽毛球,还有一些修理房子用的工具比如钳子扳手,还有花草相关的东西比如花籽喷壶什么的。东西很多,如果不加以分类整理,当你想找什么东西的时候,是要花费不少时间的。开始我把所有东西都堆在车库或者房间的衣橱里,发现每次找东西都很费劲,后来就买了一些美国叫做“organizer”的架子,每个架子上装着一些小抽屉,有点类似中国古代的中药房里陈列的药柜子。先把这些家庭用品按照用途进行分类整理,然后分别放置到不同的抽屉里,最后在抽屉上写上类别名称,比如,电器类,工具类,玩具类等等。以后再找东西就方便快速的多了。从电视上看,好像美国还有专门的公司教家庭主妇们如何organize,当然是收费的。可见organization是很重要的。

单词的含义跟单词的发音或者词形是没有必然的关系的,他们之间的关系完全是随意的,这就好像图书馆里把天文学的书籍放在第一个书架上还是放在第八个书架上,是没有什么必然的原则要遵守的一样。比如“狗”这样一种动物,它的含义即可以用汉字“狗”这样一个词形来映射关联,也可以用“dog”这样一个英语词形来映射关联。甚至在同一种语言中,比如汉语中,如果当初人们把“猪”这样一种动物用“狗”这个词形来映射,也是没有什么不妥的。

虽然每一个单词的含义与其词形和发音没有必然的映射关联,但是两个单词的含义之间是否有关联呢?下面我们来探讨一下含义是什么,以及含义与含义之间是否有关联,或者说是否存在某种相关性。

7.3. 用集合论来探讨单词的含义
7.4. 两个单词合成一个新词的方法
7.5. 多个单词合成一个新单词的方法
7.6. 音节加单词合成一个新单词的方法
7.7. 以词造词的局限性

(未完待续)

【注:本节已经全部写完,只是感觉组织的比较凌乱,正在做进一步整理。而且这一节写的长了点,还是先把前两个小节发出来,看看大家有什么反馈意见没有。】

作者:吴耐驴鸣镇 发贴, 来自 http://www.hjclub.org


上一次由吴耐于2009-10-25 周日, 上午1:23修改,总共修改了7次
返回顶端
阅读会员资料 吴耐离线  发送站内短信
显示文章:     
回复主题   printer-friendly view    海纳百川首页 -> 驴鸣镇 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题
不能在本论坛回复主题
不能在本论坛编辑自己的文章
不能在本论坛删除自己的文章
不能在本论坛发表投票
不能在这个论坛添加附件
可以在这个论坛下载文件


based on phpbb, All rights reserved.
[ Page generation time: 0.05789 seconds ] :: [ 25 queries excuted ] :: [ GZIP compression enabled ]