阅读上一个主题 :: 阅读下一个主题 |
作者 |
启明:关于汉字信息熵不妨接着谈,我起个头,我认为汉字处理可分为四个部份 |
 |
越南人 [个人文集]
加入时间: 2004/02/14 文章: 7096
经验值: 97883
|
|
|
作者:越南人 在 罕见奇谈 发贴, 来自 http://www.hjclub.org
我认为汉字处理可分为四个部份:输入,储存,传输,逻辑分析.
输入:
首先因为汉字是象形文字,按拼音输入由于信息熵太大导致大量重码,但按造型码如五笔字,甚至光笔输入就没那么大问题, 换句话说,把文字拆开为部首和几个高频字后, 信息熵就不那么大了.
储存,传输:
汉语文章本来就短,按信息熵理论,10000个字(14bit) ,经最简单的压缩也可到9.x(=10bit)的程度,所以储存,传输效率在现代硬件条件下也不弱.
逻辑分析:
逻辑分析主要按词为单位进行,只要词的码足够短,理论上效率会比较高.
作者:越南人 在 罕见奇谈 发贴, 来自 http://www.hjclub.org |
|
|
返回顶端 |
|
 |
|
|
|
您不能在本论坛发表新主题 您不能在本论坛回复主题 您不能在本论坛编辑自己的文章 您不能在本论坛删除自己的文章 您不能在本论坛发表投票 您不能在这个论坛添加附件 您不能在这个论坛下载文件
|
based on phpbb, All rights reserved.
|