您现在的位置是:首页 > 数字化转型 >
面向商业应用的机器翻译方兴未艾
2013-08-19 15:45:04作者:Jaap van der Meer来源:中国信息化周报
摘要自1954年起,世界各国许多大学已经展开了对机器翻译的研究,但机器翻译仍然没有在商业领域大规模应用。然而,上世纪八十年代开始,一些翻译服务公司开始使用一种非常原始的翻译辅助工具,通常称为翻译记忆库(TM)。...
自1954年起,世界各国许多大学已经展开了对机器翻译的研究,但机器翻译仍然没有在商业领域大规模应用。然而,上世纪八十年代开始,一些翻译服务公司开始使用一种非常原始的翻译辅助工具,通常称为翻译记忆库(TM)。TM工具将句子译文存入数据库,这样一旦需要翻译的文件重复出现同样的句子,译者就可以直接使用它们。相较TM而言,机器翻译则指完全自动化。理论上机器翻译能够让译者失业。然而,机器翻译技术输出的译文质量无法达到出版及终端用户使用的要求。因此,专业的翻译服务行业还将会继续存在多年,一边为机器翻译改进技术,一边对机器翻译的译文进行后编辑。
第一代机器翻译技术基于句法分析和转换并结合了双语词典:即基于规则的引擎。上世纪九十年代以来,开发了一种构建机器翻译的替代方法,该方法忽略语法,完全依靠来自语言与翻译数据的统计技术。这种方法称为基于统计的机器翻译,需要建立在大量的单语和双语数据的基础之上。这个方法使过去二十多年来积累的翻译记忆库数据派上用场。
机器翻译打开沟通大门
虽然面向翻译服务业的技术姗姗来迟,但现在它已到来,并且必将改变一切。在不远的将来,世界上的人们讲自己母语的时候,别人都将能够理解。我们正在步入融合的时代:翻译技术将作为一种实用程序(Utility)嵌入到包括各种应用、设备、标志牌和显示屏中。
在新市场上不断找到新客户将使这个产业蓬勃发展。政府和民众的联系和沟通将更加便捷。消费者可以随时随地与人沟通,好像从来不曾存在语言障碍。
不要误解我的意思。机器翻译并不完美,但它打开了沟通的大门,破除了沟通的障碍。机器翻译可以用来提升翻译产业,并促使它不断改进技术,填充国际沟通的鸿沟。
这个构想太乐观了吗?如果你像TAUS所做的那样,相信翻译数据的力量,这个构想就不会只是镜花水月。翻译数据是机器翻译技术的燃料,数据为翻译引擎注入动力。翻译引擎或许永远不能等同于人类的语言能力,但它足以帮我们在不曾使用或永远不会使用的语言环境里进行交流。机器翻译将成为新的通用语言。
机器翻译经过长时间的实验、试用和测试,但当时仍未通过实用性测试这一关。在数百万人开始在搜索网页上点击翻译按钮之前,机器翻译曾被认为是乌托邦。但不管译文质量多么糟糕、可笑,人们却喜欢这样一个事实:机器翻译是可控的、实时的。机器翻译是时代的标志,用户掌控并驱动着它的变革。
步入融合时代
自1980年以来,翻译行业每十年就发生一次变革(如下图所示),但没有一次变革像我们今天所面临的“融合”变革这么剧烈。
信息容量呈爆炸式增长,已经高达泽字节(10的21次方字节),它可能与数十亿新用户随意点击翻译按钮有关。当我们从20世纪的出口心态转变为21世纪的全球开放社会时,语言对的组合在未来十年将从当前7种源语言和60种目标语言转变为200种源语言和200种目标语言。纯人工驱动的翻译处理无法满足新世纪的需求,这点毋庸置疑。
在当前的这种集成时期,企业和机构都忙于改变翻译职能的孤立状态,他们的重心都放在了将翻译集成在诸如内容管理系统这样的企业应用。这将帮助企业提高工作能力,不仅仅是翻译普通文本、说明书、手册和软件。
然而,对于翻译量越来越大,速度要求越来越快,甚至要即时翻译的需求,面临着很大的压力。这为创新者提供了大量机会,从而抓住融合的契机,提供前所未有的解决方案。
大数据带来的机遇与挑战
大数据对翻译行业的重要性不可低估。大数据将推动自动翻译向前发展。大数据将能够应对包括机器翻译在内的自然语言处理的不同领域的挑战。计算机将能够自动运行语义聚类和类型识别处理,这就意味着计算机可以识别行业领域(如医学和放射学)和内容类型(如说明书或专利申请)。
大数据对机器翻译技术的持续改进和定制化至关重要。由于现代机器翻译系统需要越来越多的平行数据,而这样大量的数据最终要达到使用传统数据管理技术无法处理的极限,因此大数据技术已经成为决定因素。如果计算机获得更多数据,也能够更好地进行术语挖掘。
大数据可以识别同义词、相关术语、新词、行业用语,并运用平行处理工具自动生成句法分类。简单的统计翻译模型发展成为包含(基于句法或对齐的)层次树结构的混合模型,使得机器翻译引擎能够进行远距离调序,产生更流畅、准确的译文,这对于结构差异大的语言对更是如此。
在这个融合时代,需要翻译的内容正进一步从文档和软件版本转变成零散的文本、在多个屏幕上发布的音频和视频。终端用户、大众或病人会比现在拥有更大的控制权,他们将推动持续的翻译流应用。这个翻译流包含有公务类(公司、公众、立法)、社会类、共享类、增值类以及私人类信息。
翻译记忆软件非常适合出版商提供的静态文件的更新,但在翻译用户提交的动态内容时会显得力不从心。机器翻译技术将更快地走向成熟,并成为翻译服务业采用的首选工具。机器翻译平台将增加新功能,使专业用户能够添加数据(针对特定客户或特定产品的翻译记忆库、词汇表和目标语文本),这些数据几乎可以实时训练和定制化翻译引擎。
机器翻译引擎的自助实时训练可用于每一项工作。与我们过去进行的成本高、耗时长的针对通用语言对的机器翻译开发对比而言,今后机器翻译的个性化开发可谓是巨大的进步。它将推动翻译记忆库数据的不断扩大。对于每一个新的作业,译者将寻找匹配的数据,用于微调翻译引擎。因此,对于数据的需求将是永远无法满足的。
现在谁在使用机器翻译?
如今,MT机器翻译技术正迅速进入商业和政府领域。今年六月,全球化与本地化协会(GALA)与下一代本地化技术研究中心(CNGL)开展了一项问卷调查。调查显示,在500多名受访者中,超过三分之一的受访者称他们目前正在使用MT机器翻译,另有更高比例的受访者表示他们的业务中没有使用MT机器翻译,但在未来一两年内将使用MT机器翻译。中国翻译公司的MT机器翻译使用率偏低,但是许多公司正在对MT机器翻译进行投资。在中国,北京赛迪翻译技术公司长期从事机器翻译研发,开发了同时使用句法与统计方法的翻译技术。在文思海辉(Pactera)、CSOFT、语智云帆(Lingosail)和Sunlike等语言服务供应商中,有些建造了自己的引擎,有些则采用开源机器翻译技术(如Moses)来训练和定制化它们自己的引擎。中国的IT公司,如华为、有道和百度都拥有内部的机器翻译研发团队。此外,许多跨国公司,如SDL、莱博智、奥多比、微软、赛门铁克和 EMC等,都在中国投资机器翻译的研发。
在欧洲,欧盟委员会翻译总司自上世纪八十年代起一直在使用机器翻译。最近他们将机器翻译开发完全转向开源的基于统计的机器翻译系统,该系统的训练使用了欧盟委员会翻译总司收集和翻译的包括欧盟23种语言的大量法律文本。
作者介绍
Jaap van der Meer先生是国际翻译自动化用户协会(TAUS)创始人和现任会长,被业界誉为国际语言产业开拓先锋。1980年,他在荷兰创办了自己的第一家翻译公司INK,并使其在10年内成长为业内最大的公司之一。1987年,INK公司发布了第一个桌面术语抽取和翻译记忆软件。他推动并资助了全球本地化行业标准协会(LISA)的创立大会。他曾任第一家在纳斯达克(NASDAQ)成功上市的翻译公司ALPNET的董事长和CEO。在翻译技术及全球化趋势方面,他是经常的会议演讲者,也是大量相关文章的作者。
(本文不涉密)
责任编辑:
上一篇:信息消费:提升软件业支撑服务水平