阅读上一个主题 :: 阅读下一个主题 |
作者 |
刚才仔细看了一下启明转贴的那个文章,刚看了一点,我就不懂了。 |
 |
冬冬 [博客] [个人文集]
游客
|
|
|
作者:Anonymous 在 罕见奇谈 发贴, 来自 http://www.hjclub.org
第一:
H = - LOG 2(P)
其中:H 表示信息熵,P 表示某种语言文字的字符出现的概率,
LOG 2是以二为底的对数,用的是二进制,因而,信息熵的单位是比特(BIT,即二
进制的0和1)。
问题:对于英文来讲,每个字母在字中出现的频率不同,26个字母中,
我印象中是E出现的频率最高,Z好象最低。P如果表示某个字母出现的频率,
那么P就小于1。LOG2(P)就小于0。根据公式,H就大于0,而且,
出现频率越低的字母的信息熵就越大。每个字母的信息熵值不同。
我的理解是这段应该是针对字母来说的,因为只有谈字母出现在字中的概率
才有意义。
对于汉字是如何计算,我就不知道了,是算单个的汉字,还是什么,我就不知道了。
当然可以通过拼音来计算哪个英文字母在汉字拼音中出现的频率。
第二:
H = - E(n, r=1) LOG (2) P (r)
来计算熵值H。公式中,H 是静态信息熵,E(n, r=1)是从r 到n 个结果的和,LOG
(2)是以2为底的对数,P(r)是第r 个结果的概率。这个公式是基本公式的一般
静态方法,求到的数值是静态平均信息熵。中国科学家冯志伟等人的对中文字符信
息熵计算的结果是:
汉字容量:1 1052 1830 4912 5104 5211 12370
信息熵值:0 7.53 9.52 9.61 9.63 9.64 9.65
问题:
对这个公式,我的理解是H =( -LOG(2) P(1)) +( -LOG(2) P(2))+.......+(.-LOG(2)
P(N))
这是求和,R的值从1到N。该公式根本没说清楚R代表什么,N具体是多少
也不知道,也没有说N代表多少。当然求和公式么,N肯定是个整数,
可是P(1),P(2),。。。具体代表什么,公式也没说清楚。N到底是多少呢?
不说明R的含义,当然也就不知道N 到底是多少了。
文章说P(r)是第r 个结果的概率,什么第一个结果,第2个结果?根本没说清楚到
底怎么回事。
就先提这些问题,看懂那篇文章的网友能回答一下吗?
作者:Anonymous 在 罕见奇谈 发贴, 来自 http://www.hjclub.org |
|
|
返回顶端 |
|
 |
|
|
|
您不能在本论坛发表新主题 您不能在本论坛回复主题 您不能在本论坛编辑自己的文章 您不能在本论坛删除自己的文章 您不能在本论坛发表投票 您不能在这个论坛添加附件 您不能在这个论坛下载文件
|
based on phpbb, All rights reserved.
|