海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: 负熵藏于结构
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈
阅读上一个主题 :: 阅读下一个主题  
作者 负熵藏于结构   
所跟贴 负熵藏于结构 -- Anonymous - (1119 Byte) 2005-1-18 周二, 下午3:27 (642 reads)
无业游民
[博客]
[个人文集]

游客









文章标题: 同意:高层次熵无法测量。补充:汉字熵太大, 不说明“汉语混乱度比较大” (148 reads)      时间: 2005-1-19 周三, 上午7:10

作者:Anonymous罕见奇谈 发贴, 来自 http://www.hjclub.org

信息熵和热力学熵虽然反应了这个世界的同一个实质,但是从数值上来看,他们方向却相反。如果不加指明,汉字熵太大这个结论容易造成“汉语混乱度比较大”的错觉。

汉字熵太大是指符号平均信息熵太大。传递相同信息的话,一个复杂的符号系统和简单的符号系统相比,单位符号的信息量显然是复杂的符号系统大。几个学者无非是把显而易见的事实进行了量化。但是,至少以下内容的熵没有测定过,或许永远无法测定。
* 符号组合的复杂程度(词语的度量,高一个层次)
*语法结构的复杂性(句子的度量,更高一个层次)
而语言是个多层次的复杂系统,仅有最低层次的数据不能说明问题。

实际上表达相同的意思,简单的符号系统就需要更复杂的组合。比如中文“中国人”用英文表达需要“chinese”。实际上如果按照汉字平均每个符号9.6bit,英语每个符号带有4.01bit的结论,这两个词的信息量差不多。当然这个特例在量上面没有统计学意义,只说明单位信息量较小的符号需要更复杂的结构,才能携带和信息量大的符号相比。

因此,所以您如果说“汉语最主要的问题,是结构含糊的问题”,这已经是出于个人经验的主观判断了。这和Zhang文章里引述的“汉字的平均信息熵太大”的结论已经没有什么关系了。这种判断可能是正确的,要说服人却还嫌不够。俺也经常有和您类似的感觉,但是俺比较怀疑自己的感觉。

建议以后用热熵和信熵来区别两者。如果不加指明,熵就指传统意义上的熵(热熵)


作者:Anonymous罕见奇谈 发贴, 来自 http://www.hjclub.org
返回顶端
    显示文章:     
    回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈 所有的时间均为 北京时间


     
    论坛转跳:   
    不能在本论坛发表新主题
    不能在本论坛回复主题
    不能在本论坛编辑自己的文章
    不能在本论坛删除自己的文章
    不能在本论坛发表投票
    不能在这个论坛添加附件
    不能在这个论坛下载文件


    based on phpbb, All rights reserved.
    [ Page generation time: 0.092734 seconds ] :: [ 22 queries excuted ] :: [ GZIP compression enabled ]