海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: 刚才仔细看了一下启明转贴的那个文章,刚看了一点,我就不懂了。
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈
阅读上一个主题 :: 阅读下一个主题  
作者 刚才仔细看了一下启明转贴的那个文章,刚看了一点,我就不懂了。   
所跟贴 刚才仔细看了一下启明转贴的那个文章,刚看了一点,我就不懂了。 -- Anonymous - (907 Byte) 2005-1-14 周五, 上午11:39 (473 reads)
黄药师






加入时间: 2004/02/14
文章: 999

经验值: 116


文章标题: 这么简单的问题没看明白,实在难以理解如何攻读数学博士学位 (176 reads)      时间: 2005-1-14 周五, 下午12:18

作者:黄药师罕见奇谈 发贴, 来自 http://www.hjclub.org

那篇文章毛病甚多
比如:
例如英文,一共有26个字母字符,大小写和各种标点符号都算上,只要90字节左右就够了,不到中文字符消耗的千分之一。
=========================================================
这里千分之一显然计算错误,应该是百分之一。这个错误虽说不上多严重,但反映出作者文风的不严谨。

不过你说的问题很容易:
1 汉字的计算方法与英语类似,比如“的”的频率远高于其他汉字,类似于e.把几千汉字的使用频率统计出来再套用那个公式就成了。
2 H = - E(n, r=1) LOG (2) P (r)
这里 E显然是求和符号(西格马),r 是某个特定的字符。p(r)就是那个字符的使用频率(介于0和1之间),n在拼音文字中比较固定,比如英语是26,俄语是33(对么?没学过俄语,呵呵)...至于汉字则比较复杂了,不过原文说的很清楚,作者采用的是12366个汉字的数据。



作者:黄药师罕见奇谈 发贴, 来自 http://www.hjclub.org
返回顶端
阅读会员资料 黄药师离线  发送站内短信
显示文章:     
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题
不能在本论坛回复主题
不能在本论坛编辑自己的文章
不能在本论坛删除自己的文章
不能在本论坛发表投票
不能在这个论坛添加附件
不能在这个论坛下载文件


based on phpbb, All rights reserved.
[ Page generation time: 0.128288 seconds ] :: [ 23 queries excuted ] :: [ GZIP compression enabled ]