海纳百川 :: 阅读主题 - 刚才仔细看了一下启明转贴的那个文章，刚看了一点，我就不懂了。

海纳百川

登录 \| 登录并检查站内短信 \| 个人设置	网站首页 \| 论坛首页 \| 博客 \| 搜索 \| 收藏夹 \| 帮助 \| 团队 \| 注册 \| RSS


	主题: 刚才仔细看了一下启明转贴的那个文章，刚看了一点，我就不懂了。

printer-friendly view

海纳百川首页 -> 罕见奇谈

阅读上一个主题 :: 阅读下一个主题

作者

刚才仔细看了一下启明转贴的那个文章，刚看了一点，我就不懂了。

冬冬
[博客]
[个人文集]

游客

标题: 刚才仔细看了一下启明转贴的那个文章，刚看了一点，我就不懂了。 (527 reads) 时间: 2005-1-14 周五, 上午11:39

作者：Anonymous 在罕见奇谈发贴, 来自 http://www.hjclub.org

第一：
H = - LOG 2（P）
其中：H 表示信息熵，P 表示某种语言文字的字符出现的概率，
LOG 2是以二为底的对数，用的是二进制，因而，信息熵的单位是比特（BIT，即二
进制的0和1）。
问题：对于英文来讲，每个字母在字中出现的频率不同，26个字母中，
我印象中是E出现的频率最高，Z好象最低。P如果表示某个字母出现的频率，
那么P就小于1。LOG2(P)就小于0。根据公式，H就大于0，而且，
出现频率越低的字母的信息熵就越大。每个字母的信息熵值不同。
我的理解是这段应该是针对字母来说的，因为只有谈字母出现在字中的概率
才有意义。
对于汉字是如何计算，我就不知道了，是算单个的汉字，还是什么，我就不知道了。
当然可以通过拼音来计算哪个英文字母在汉字拼音中出现的频率。

第二：
H = - E（n， r=1） LOG （2） P （r）
来计算熵值H。公式中，H 是静态信息熵，E（n， r=1）是从r 到n 个结果的和，LOG
（2）是以2为底的对数，P（r）是第r 个结果的概率。这个公式是基本公式的一般
静态方法，求到的数值是静态平均信息熵。中国科学家冯志伟等人的对中文字符信
息熵计算的结果是：
汉字容量：1 1052 1830 4912 5104 5211 12370
信息熵值：0 7.53 9.52 9.61 9.63 9.64 9.65
问题：
对这个公式，我的理解是H =( -LOG(2) P(1)) +( -LOG(2) P(2))+.......+(.-LOG(2)
P(N))
这是求和，R的值从1到N。该公式根本没说清楚R代表什么，N具体是多少
也不知道，也没有说N代表多少。当然求和公式么，N肯定是个整数，
可是P(1)，P(2)，。。。具体代表什么，公式也没说清楚。N到底是多少呢？
不说明R的含义，当然也就不知道N 到底是多少了。
文章说P（r）是第r 个结果的概率，什么第一个结果，第2个结果？根本没说清楚到
底怎么回事。

就先提这些问题，看懂那篇文章的网友能回答一下吗？

作者：Anonymous 在罕见奇谈发贴, 来自 http://www.hjclub.org

这么简单的问题没看明白，实在难以理解如何攻读数学博士学位 -- 黄药师 - (429 Byte) 2005-1-14 周五, 下午12:18 (198 reads)

看表达就知道，什么第一个结果，第二个结果， -- 冬冬 - (18 Byte) 2005-1-14 周五, 下午12:35 (140 reads)

更正：什么叫第一个结果的概率，第2个结果的概率？ -- 冬冬 - (21 Byte) 2005-1-14 周五, 下午12:36 (101 reads)

这就不一定了，关于汉字， -- 冬冬 - (64 Byte) 2005-1-14 周五, 下午12:28 (141 reads)

你怎么这么笨啊 -- 黄药师 - (168 Byte) 2005-1-14 周五, 下午12:36 (163 reads)

我是这样想的， -- 冬冬 - (116 Byte) 2005-1-14 周五, 下午12:48 (135 reads)

另外 -- 黄药师 - (167 Byte) 2005-1-14 周五, 下午12:56 (142 reads)

你说(的)出现频率是0.08等，你是怎么知道的？ -- 冬冬 - (0 Byte) 2005-1-14 周五, 下午1:01 (122 reads)

你这不是抬杠么 -- 黄药师 - (54 Byte) 2005-1-14 周五, 下午1:03 (146 reads)

我不是抬杠，我以为你真知道呢 -- 冬冬 - (0 Byte) 2005-1-14 周五, 下午1:07 (94 reads)

我并没说那文章没有问题啊 -- 黄药师 - (31 Byte) 2005-1-14 周五, 下午12:52 (129 reads)

随你怎么说吧，不过我真是不明白什么第一个结果的概率这样的话 -- 冬冬 - (0 Byte) 2005-1-14 周五, 下午12:58 (119 reads)

作者说的不严谨，但作为有点数学修养的人士 -- 黄药师 - (29 Byte) 2005-1-14 周五, 下午1:01 (139 reads)

我确实没看明白,随你怎么说吧，我不辩解 -- 冬冬 - (0 Byte) 2005-1-14 周五, 下午1:06 (119 reads)

没什么，不过现在总该明白了吧 -- 黄药师 - (0 Byte) 2005-1-14 周五, 下午1:10 (133 reads)

现在明白了，可是这也不是改汉字的理由呀， -- 冬冬 - (58 Byte) 2005-1-14 周五, 下午1:15 (121 reads)

汉字改不改我可管不着 -- 黄药师 - (141 Byte) 2005-1-14 周五, 下午1:25 (141 reads)

还有个问题，与数字无关的，文章说联合国5个工作语言里，有俄语吗？ -- 冬冬 - (13 Byte) 2005-1-14 周五, 下午12:32 (124 reads)

最初是英语，俄语，法语，汉语，西班牙语 -- 黄药师 - (33 Byte) 2005-1-14 周五, 下午12:42 (128 reads)

嗯，多谢 -- 冬冬 - (0 Byte) 2005-1-14 周五, 下午12:51 (96 reads)

自己不懂的作者写的文章理论上不应该有人懂，去看俺写的科普文章 -- 无业游民 - (290 Byte) 2005-1-14 周五, 下午12:12 (140 reads)

对能看懂那篇文章的，我真算是服了 -- 冬冬 - (0 Byte) 2005-1-14 周五, 下午12:20 (83 reads)

当然了，不是当选就是落选，不是0就是1，呵呵 -- 冬冬 - (0 Byte) 2005-1-14 周五, 下午12:17 (83 reads)

对了,小胡当选国家主席的信息量 H=-LOG2(P)=-LOG2(1) = 0 -- 越南人 - (0 Byte) 2005-1-14 周五, 下午12:17 (110 reads)

就是说不用问任何问题就能确定 -- 无业游民 - (0 Byte) 2005-1-14 周五, 下午12:19 (89 reads)

再提个问题: -- 冬冬 - (1358 Byte) 2005-1-14 周五, 下午12:09 (150 reads)

稍微仔细看一下，那篇文章绝不专业人士写的，象普通记者写的东西 -- 冬冬 - (0 Byte) 2005-1-14 周五, 下午12:11 (87 reads)

有人能回答一下上面的问题吗？ -- 冬冬 - (0 Byte) 2005-1-14 周五, 下午12:00 (79 reads)

另外如果真的因为汉字的信息量大，以目前的信息技术 -- 冬冬 - (59 Byte) 2005-1-14 周五, 上午11:56 (117 reads)

不论如何，这怎么也不是改汉字的理由呀，应该是电脑技术革新的动力么 -- 冬冬 - (0 Byte) 2005-1-14 周五, 上午11:59 (81 reads)

显示文章:

printer-friendly view

海纳百川首页 -> 罕见奇谈

所有的时间均为北京时间

您不能在本论坛发表新主题
您不能在本论坛回复主题
您不能在本论坛编辑自己的文章
您不能在本论坛删除自己的文章
您不能在本论坛发表投票
您不能在这个论坛添加附件
您不能在这个论坛下载文件

based on phpbb, All rights reserved.

[ Page generation time: 6.231493 seconds ] :: [ 25 queries excuted ] :: [ GZIP compression enabled ]