阅读上一个主题 :: 阅读下一个主题 |
作者 |
刚才仔细看了一下启明转贴的那个文章,刚看了一点,我就不懂了。 |
 |
所跟贴 |
刚才仔细看了一下启明转贴的那个文章,刚看了一点,我就不懂了。 -- Anonymous - (907 Byte) 2005-1-14 周五, 上午11:39 (473 reads) |
黄药师
加入时间: 2004/02/14 文章: 999
经验值: 116
|
|
|
作者:黄药师 在 罕见奇谈 发贴, 来自 http://www.hjclub.org
那篇文章毛病甚多
比如:
例如英文,一共有26个字母字符,大小写和各种标点符号都算上,只要90字节左右就够了,不到中文字符消耗的千分之一。
=========================================================
这里千分之一显然计算错误,应该是百分之一。这个错误虽说不上多严重,但反映出作者文风的不严谨。
不过你说的问题很容易:
1 汉字的计算方法与英语类似,比如“的”的频率远高于其他汉字,类似于e.把几千汉字的使用频率统计出来再套用那个公式就成了。
2 H = - E(n, r=1) LOG (2) P (r)
这里 E显然是求和符号(西格马),r 是某个特定的字符。p(r)就是那个字符的使用频率(介于0和1之间),n在拼音文字中比较固定,比如英语是26,俄语是33(对么?没学过俄语,呵呵)...至于汉字则比较复杂了,不过原文说的很清楚,作者采用的是12366个汉字的数据。
作者:黄药师 在 罕见奇谈 发贴, 来自 http://www.hjclub.org |
|
|
返回顶端 |
|
 |
- 看表达就知道,什么第一个结果,第二个结果, -- 冬冬 - (18 Byte) 2005-1-14 周五, 下午12:35 (115 reads)
- 这就不一定了,关于汉字, -- 冬冬 - (64 Byte) 2005-1-14 周五, 下午12:28 (118 reads)
- 你怎么这么笨啊 -- 黄药师 - (168 Byte) 2005-1-14 周五, 下午12:36 (141 reads)
- 我是这样想的, -- 冬冬 - (116 Byte) 2005-1-14 周五, 下午12:48 (114 reads)
- 另外 -- 黄药师 - (167 Byte) 2005-1-14 周五, 下午12:56 (120 reads)
|
|
|
您不能在本论坛发表新主题 您不能在本论坛回复主题 您不能在本论坛编辑自己的文章 您不能在本论坛删除自己的文章 您不能在本论坛发表投票 您不能在这个论坛添加附件 您不能在这个论坛下载文件
|
based on phpbb, All rights reserved.
|