阅读上一个主题 :: 阅读下一个主题 |
作者 |
启明:关于汉字信息熵不妨接着谈,我起个头,我认为汉字处理可分为四个部份 |
 |
所跟贴 |
启明:关于汉字信息熵不妨接着谈,我起个头,我认为汉字处理可分为四个部份 -- 越南人 - (270 Byte) 2005-1-17 周一, 上午8:19 (342 reads) |
启明 [博客] [个人文集]
游客
|
|
|
作者:Anonymous 在 罕见奇谈 发贴, 来自 http://www.hjclub.org
英文只有26个字母,它的信息熵就是不去冗余度的最大值,也就是4.7BITS而已.而汉字的熵却是随字数的增加而增加的(我不同意ZHANG的文章中使用的汉字信息熵的统计方式).
由于汉字的信息熵比其它文字都大很多,在你说的四个领域里(输入/出,储存,传输,分析)汉字都有问题.比如,储存的问题,主要表现在检索能力差上.数据的储存目的是为了使用,没有好的检索能力的数据储存方式,是没有价值的和无意义的.汉字信息的检索能力比起英文数据来说,差得很多,尽管它占的空间看起来要比英文小一点,但那不是目的.
至于输入,有统计证明90%以上的国人是使用拼音输入法,而不是形位法,尽管基于"现行拼音方案"的输入法,重码率太高,无法实现盲打,但它确实方便,易学,不容易忘,也不容易打断写作的思路.任何行位码输入都只适合于专业人士,而且是照稿输入时最方便.创作性的写作,行位输入很不方便.
传输,汉字也不方便,UNICODE现在给汉字留了四个字节,恐怕还不够,以后汉字就是在网络上最受歧视的文字.
分析,就更不用说了,汉字无法编程(严格说是不方便编程),现在域名都是拼音的.
汉字在机器的信息处理上的所有缺点,都揭示出汉字本身的致命缺点,我们没有打字机和没有计算机的问题是相同的,那就是因为汉字的信息熵太大.
作者:Anonymous 在 罕见奇谈 发贴, 来自 http://www.hjclub.org |
|
|
返回顶端 |
|
 |
|
|
|
您不能在本论坛发表新主题 您不能在本论坛回复主题 您不能在本论坛编辑自己的文章 您不能在本论坛删除自己的文章 您不能在本论坛发表投票 您不能在这个论坛添加附件 您不能在这个论坛下载文件
|
based on phpbb, All rights reserved.
|