海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: “操水果区”的笑话暴露的中文弊病
回复主题   printer-friendly view    海纳百川首页 -> 驴鸣镇
阅读上一个主题 :: 阅读下一个主题  
作者 “操水果区”的笑话暴露的中文弊病   
芦笛
[博客]
[个人文集]

论坛管理员




加入时间: 2004/02/14
文章: 31805

经验值: 519217


文章标题: “操水果区”的笑话暴露的中文弊病 (972 reads)      时间: 2008-8-05 周二, 下午6:05

作者:芦笛驴鸣镇 发贴, 来自 http://www.hjclub.org

“操水果区”的笑话暴露的中文弊病


芦笛


常委网友转贴了据说是首都机场的某个中英文双解招牌的照片,“干果区”给翻译成了“F u c k the Fruit Area”,大众绝倒之际,大概不会想到这其实暴露了中文的弊病。不仅如此,笔名123网友还误以为那是负责翻译的外国人捣的鬼。

我已经告诉笔名123网友了,那不是人翻译而是机器翻译的。现在国内普遍使用机器翻译,有的连手机都配备了翻译软件,输入中文即可给出相应的英文翻译。就连中文版的Google都有这功能,若搜索到的文章是英文的,点击翻译的链接就能译为中文。这就是为何某商店会高挂“Translate Server Error”,以为那便是英文的“餐厅”。

不仅是负责制作商标的厂家,就连许多国内学者翻译论文摘要,都竟然依赖这翻译软件。我最先看到此类翻译中F word频频出现时,还以为是网人效法老加恶搞,后来某网友贴出若干国内论文标题和摘要的英译,里面F word琳琅满目,美不胜收,才觉得编写那软件的人真是个蓄意败坏祖国名声的阶级敌人。看来那软件在国内极度流行,因此无论是贩夫走卒,还是学者文人,统统都干将起来,或干水果区,或操革命,忙得不亦乐乎。

本文当然不是为了抓出那阶级敌人而写,我的意思是,BBC报道的那位外国友人有如到处去寻找错误招牌,并一一改正,不如利用一下他对政府的影响,呼吁停止使用那误尽苍生的背时软件,盖中文和西语结构完全不同,根本不是机器翻译能对付的,除非那机器是阿越设计的,能进行“模糊判断”。

从“干死水果区!”那豪迈号召就足以洞见这一点,它暴露了两大问题:

第一,中文与西语不同,外形和发音没有区分不同词性的能力。同是一个字或词,到底是动词,是名词,是形容词,从外表根本就无从判断。简化汉字时归并了许多同音异义字更使得这问题越发突出。例如那“干”,可以是形容词“乾”,也可以是动词“幹”,这本来在正体字中可以区分,但汉字简化时把它们归并在一起,便导致了那笑话出现。活人从小受了足够训练,凭下意识便能区别,但机器怎有这智能?当然只能碰上谁就是谁了,顶多只能列出所有可能的意思来。不懂英文的人只能挑第一个。而不幸的是那下流软件把F word列为首选,这才会导致全国人民干劲十足。

第二,中文与西语不同,是单音节语言,是字而不是词是语言的单元(亦即有意义的最小单位)。古文是一字一词,双音节词汇是后世才逐渐出现的,但它的出现并未改变字是最小的表意单位的特点,由此导致文字模糊不明,其中一个问题就是无法断词。国人反正糊涂惯了,不会察觉这个毛病,鬼子和机器就不然了,他们可能遇到的一大困扰,就是不知道哪些字本身就是词,而哪些字只是组词构件,本身不能当成词。

那“干果区”的笑话就是这么出现的。即使那翻译软件不把那下流字样作为首选,机器也根本就不可能翻译出来。它要解决的第一个问题就是在何处断词:到底是“干-果-区”,还是“干果-区”,抑或是“干果区”?第三个选择它倒可以排除,因为它的字库中一般不会把“干果区”当成一个词,但前两个选择根本就不是它能判断的。要缩小软件尺寸,最简单的方法就是根本不判断(本来也无法判断),按每个字可能有的涵义去翻译。这结果当然必然是笑话,区别只在于那不是下流笑话而已。

谓予不信,不妨使用网上汉英字典来翻译。“干”有这么些意思:

干I 名词 1)(古代指盾)shield。2)(天干)short for the Ten Heavenly Stems. 3)书面语(水边),the edge of waters. 4)(姓氏),a surname。5)(加工制成的干食品),dried food。II。形容词 1)(没有水分或水分很少)dry。2)(不用水的)waterless。3)(空虚;空无所有)empty; hollow。4)(指拜认的亲属关系)taken into nominal kinship。5)(方言,形容说话太直太粗)rough; rude; boorish. 下面还有五个动词意义,三个副词意义,懒得抄了。

这只是第一声的“干”,第四声的“干”则有两个名词意义,三个动词意义,两个形容词意义。

“果”则有三个名词,一个动词、一个形容词、一个副词、一个连词的意义。

您说机器哪有本事在毫无外形区别提示的前提下,挑出正确的意义来?就算它奇迹般地蒙对了,那也只可能是“dry fruit”,“dried fruit” ,不可能凑出“Nuts”来。

那位说了,不要用逐字翻译的方式,把双音词存入字库,翻译时先把这些词筛选出来,再翻译单字,最后组装起来,不就可以大大提高猜中频率了么?

此话有理,可惜啊,中文断词可不是那么容易的。例如你若把“干果”当成基本词汇输入进去,弄个对应的“Nuts”在那儿,翻译时先把双音节词扫描出来再翻译单字,则“大干果然带来大变”就会给译成“Big nuts bring about big change”

就是这断词问题,当年难倒了推行汉语拼音化的专家们。他们都失败了,机器翻译家们还做什么梦?就算是阿越那人工智能专家,大概也没能耐解决这问题。

作者:芦笛驴鸣镇 发贴, 来自 http://www.hjclub.org


上一次由芦笛于2008-8-05 周二, 下午10:16修改,总共修改了1次
返回顶端
阅读会员资料 芦笛离线  发送站内短信
显示文章:     
回复主题   printer-friendly view    海纳百川首页 -> 驴鸣镇 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题
不能在本论坛回复主题
不能在本论坛编辑自己的文章
不能在本论坛删除自己的文章
不能在本论坛发表投票
不能在这个论坛添加附件
可以在这个论坛下载文件


based on phpbb, All rights reserved.
[ Page generation time: 0.280504 seconds ] :: [ 26 queries excuted ] :: [ GZIP compression enabled ]