海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: 启明:关于汉字信息熵不妨接着谈,我起个头,我认为汉字处理可分为四个部份
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈
阅读上一个主题 :: 阅读下一个主题  
作者 启明:关于汉字信息熵不妨接着谈,我起个头,我认为汉字处理可分为四个部份   
所跟贴 启明:关于汉字信息熵不妨接着谈,我起个头,我认为汉字处理可分为四个部份 -- 越南人 - (270 Byte) 2005-1-17 周一, 上午8:19 (342 reads)
启明
[博客]
[个人文集]

游客









文章标题: 汉字信息熵大是汉字难以在信息领域方便使用的主要原因,这是大字符集的必然缺陷! (151 reads)      时间: 2005-1-17 周一, 上午10:14

作者:Anonymous罕见奇谈 发贴, 来自 http://www.hjclub.org

英文只有26个字母,它的信息熵就是不去冗余度的最大值,也就是4.7BITS而已.而汉字的熵却是随字数的增加而增加的(我不同意ZHANG的文章中使用的汉字信息熵的统计方式).

由于汉字的信息熵比其它文字都大很多,在你说的四个领域里(输入/出,储存,传输,分析)汉字都有问题.比如,储存的问题,主要表现在检索能力差上.数据的储存目的是为了使用,没有好的检索能力的数据储存方式,是没有价值的和无意义的.汉字信息的检索能力比起英文数据来说,差得很多,尽管它占的空间看起来要比英文小一点,但那不是目的.

至于输入,有统计证明90%以上的国人是使用拼音输入法,而不是形位法,尽管基于"现行拼音方案"的输入法,重码率太高,无法实现盲打,但它确实方便,易学,不容易忘,也不容易打断写作的思路.任何行位码输入都只适合于专业人士,而且是照稿输入时最方便.创作性的写作,行位输入很不方便.

传输,汉字也不方便,UNICODE现在给汉字留了四个字节,恐怕还不够,以后汉字就是在网络上最受歧视的文字.

分析,就更不用说了,汉字无法编程(严格说是不方便编程),现在域名都是拼音的.

汉字在机器的信息处理上的所有缺点,都揭示出汉字本身的致命缺点,我们没有打字机和没有计算机的问题是相同的,那就是因为汉字的信息熵太大.

作者:Anonymous罕见奇谈 发贴, 来自 http://www.hjclub.org
返回顶端
显示文章:     
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题
不能在本论坛回复主题
不能在本论坛编辑自己的文章
不能在本论坛删除自己的文章
不能在本论坛发表投票
不能在这个论坛添加附件
不能在这个论坛下载文件


based on phpbb, All rights reserved.
[ Page generation time: 1.001532 seconds ] :: [ 23 queries excuted ] :: [ GZIP compression enabled ]