海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: 启明:关于汉字信息熵不妨接着谈,我起个头,我认为汉字处理可分为四个部份
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈
阅读上一个主题 :: 阅读下一个主题  
作者 启明:关于汉字信息熵不妨接着谈,我起个头,我认为汉字处理可分为四个部份   
越南人
[个人文集]






加入时间: 2004/02/14
文章: 7096

经验值: 97883


文章标题: 启明:关于汉字信息熵不妨接着谈,我起个头,我认为汉字处理可分为四个部份 (340 reads)      时间: 2005-1-17 周一, 上午8:19

作者:越南人罕见奇谈 发贴, 来自 http://www.hjclub.org

我认为汉字处理可分为四个部份:输入,储存,传输,逻辑分析.

输入:
首先因为汉字是象形文字,按拼音输入由于信息熵太大导致大量重码,但按造型码如五笔字,甚至光笔输入就没那么大问题, 换句话说,把文字拆开为部首和几个高频字后, 信息熵就不那么大了.

储存,传输:
汉语文章本来就短,按信息熵理论,10000个字(14bit) ,经最简单的压缩也可到9.x(=10bit)的程度,所以储存,传输效率在现代硬件条件下也不弱.

逻辑分析:
逻辑分析主要按词为单位进行,只要词的码足够短,理论上效率会比较高.


作者:越南人罕见奇谈 发贴, 来自 http://www.hjclub.org
返回顶端
阅读会员资料 越南人离线  发送站内短信
显示文章:     
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题
不能在本论坛回复主题
不能在本论坛编辑自己的文章
不能在本论坛删除自己的文章
不能在本论坛发表投票
不能在这个论坛添加附件
不能在这个论坛下载文件


based on phpbb, All rights reserved.
[ Page generation time: 1.231414 seconds ] :: [ 23 queries excuted ] :: [ GZIP compression enabled ]