海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: Nothing is free in a free country
回复主题   printer-friendly view    海纳百川首页 -> 驴鸣镇
阅读上一个主题 :: 阅读下一个主题  
作者 Nothing is free in a free country   
所跟贴 Nothing is free in a free country -- 芦笛 - (2372 Byte) 2014-3-29 周六, 上午9:36 (2359 reads)
潜水多年






加入时间: 2010/04/21
文章: 255

经验值: 10849


文章标题: 老芦骂英文的Context相关性,怕也是”隧道眼”的自我体现 (更新版) (546 reads)      时间: 2014-3-30 周日, 上午5:02

作者:潜水多年驴鸣镇 发贴, 来自 http://www.hjclub.org

多年潜水不冒泡,就是怕老芦痛骂我等”隧道眼”的思维方式。当然的确是是很有疗愚奇效,以致我终于有机会斗胆冒泡,试一试能否挑战芦师的”隧道眼”了。

首先是以直觉反证:如果一种自然语言是100%上下文无关(Context Free), 那么该语言的表达能力就至多不过是目前计算机的语言水准了。从而该语种的人脑最多不过是”奔腾”芯片的能力,恐怕也早已绝种,更别提那低级语言的生命力了。

其次是”以毒攻毒”,用理工科干面包的型式语言与计算复杂度理论,定义语言,自然语言,型式语言,和计算机语言,及其分类关系,及其计算复杂度。以上结论就可以水到渠成了。

通用的语言定义如下:
1. 语言的基础字符集(Character Set) 是有限的;
2. 语言的基本单位是单词(Word), 即有限长的字符串 (String of Characters);
3. 语言由可识别的句子(Sentence) 组成;

自然语言(简称NL)是人类使用的可以记录传承的交流工具。而语言学家和计算理论所定义的型式语言(Formal Language) 的归类包括:
· 规则表达(Regular Express) 语言(简称REL),
· 上下文无关(Context Free) 语言(简称CFL), 和
· 上下文相关(Context Sensitive) 语言(简称CSL),
· 还有至少两类Turing Computable and Turing Acceptable (TCL, TAL), 与本文无关。

为讨论语言的分类关系,需要把语言看作为语句的集和(Set)。那么, 我们已经给出的语言类的集和 就分别是:NL, REL, CFL, CSL TCL, and TAL。可以证明,这些集和间的包含关系 (借用 A < B 表示 集和 A 是 集和 B 的 真子集) 如下:

REL < CFL < CSL < TCL < TAL < NL

现代计算机语言都仅仅局限于上下文无关语言CFL。不仅现代,未来的计算机也不大可能设计为用上下文相关CSL的编程。因为可以证明,仅CSL的编译(即让计算机理解该语言写成的程序)所需的空间复杂度 (Space Complexity) 就是至少是目标程序长度的平方量级。由此可以想象编译百万行源程序的资源消耗对比,CFL程序的编译可以在数小时内完成,而CSL程序的编译所需的内存就高达数百万GB (假定一行code含数十字符), It’s practically impossible.

由此可见,自然语言中许可上下文相关,不仅是可以被理解接受的,更应该是必要的。否则,一个” Free”在16个不同场合就必须多定义15不同单词,而且所有一词多义的单词也都如此,首先是英文字典要增厚数倍或数十倍,其次是人脑多了数倍或数十倍的额外存储消耗,这些改变是否合算,依我看答案都是否定的,因为人们偶见有二义性的 Free时,最多数秒的额外时间理解,相对人脑数倍或数十倍的额外存储消耗来说,肯定是微不足道的。

在语言的自然发展过程中,人类对已经熟悉的词汇赋予上下文相关的新定义, 总比发明全新的word要方便得多,且也更易被普遍接受,。习以为常后的大脑分辨多义词在不同场合的含义也不很费力。这种“偷懒+易行”的词汇扩展却有出人意料的效果:精巧地利用了计算理论中有关于时间对空间的复杂度可以有偿互换的理论,实现了用大脑的高速度换取节省脑存空间的最佳设计。总之,仅仅指责词汇上下文相关时的多义性的缺点,而无视其以脑速度换取脑存储的合理性,恐怕是有“隧道眼”之嫌。

尤其不能同意老芦最后的评论:英语“一词多义实在太严重太太太严重”或许比中文“更烂更烂”。依我看,中文有两点特征注定了其先天不足的劣根性:

1)表形文字本身所无法避免的词汇量贫乏,及难以规范语法,就使之不可能达到表音文字所具备表达能力。翻译过英文理工科教科书的人都会有同感:想把精确简洁的原文翻译为同样简洁精确的中文经常是不可能的,只好保持精确而放弃简洁才有可能。

2)如同老芦早已指出的,现代中文词汇100%都来自西文的翻译,把不同概念的词汇(如 Right vs. Power)翻译为同音不同字的不同词(l例如:权利 vs. 权力) 才是最混账的。我敢预言,中国要实现民主,必须由官方提前10年正式更正此例翻译为:权益 vs. 权能 (Oops, 又与 全能 混淆了. 可见中文表达之低劣).

作者:潜水多年驴鸣镇 发贴, 来自 http://www.hjclub.org


上一次由潜水多年于2014-3-30 周日, 上午10:08修改,总共修改了1次
返回顶端
阅读会员资料 潜水多年离线  发送站内短信
显示文章:     
回复主题   printer-friendly view    海纳百川首页 -> 驴鸣镇 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题
不能在本论坛回复主题
不能在本论坛编辑自己的文章
不能在本论坛删除自己的文章
不能在本论坛发表投票
不能在这个论坛添加附件
可以在这个论坛下载文件


based on phpbb, All rights reserved.
[ Page generation time: 0.41063 seconds ] :: [ 20 queries excuted ] :: [ GZIP compression enabled ]