非母语人士的语法习惯提供语言线索

非母语人士的语法习惯提供语言线索

机器翻译工具在商业领域非常有用。他们帮助来自不同国家的专业人士相互沟通,使他们能够相对快速地讨论条款并进行交易。

机器翻译越来越受欢迎,特别是在大型和小型公司中,它们利用它来进入新兴的国外市场,这意味着越来越多的机器翻译正在进行改进。

公司正在分配大量资金,以帮助堵塞漏洞并弥合当今机器翻译技术中存在的差距。

以技术巨头谷歌为例,该公司在过去几年中投入了数百万美元,甚至数十亿美元,以完善其机器翻译服务 - 谷歌翻译。

但是,尽管全球努力和投资改善机器翻译,但其未来的关键在于非母语人士用英语撰写论文或其他各种文本的语法习惯。

通过查看不会说英语作为第一语言的人的书面错误,我们可以一瞥不同语言之间的关系。这最终可能有助于将机器翻译发展成更可靠的工具。

机器翻译简而言之

机器翻译是自动翻译。换句话说,计算机软件用于将文本从一种语言翻译成另一种语言。

有两种类型:基于规则的机器翻译和统计机器翻译。

前者依赖于无数的内置语言规则和每种语言对的数百万双语词典,而后者使用统计翻译模型,其参数源于单语和双语分析。

两者最终都做同样的事情,但有明显的差异。在这里,我们列出每个的利弊。

基于规则的机器翻译

优点

一致和可预测的质量

良好的域外翻译质量

知道语法规则

高性能和稳健性

版本之间的一致性

缺点

缺乏流畅性

难以处理规则的例外情况

高开发和定制成本

统计机器翻译

优点

流利程度很高

适合捕获规则的例外

快速且具有成本效益的开发

缺点

不可预知的翻译质量

域外翻译质量差

不懂语法

高计算机和磁盘空间要求

版本之间不一致

鉴于两者的优点和缺点,可以认为在机器翻译方面需要采用第三种更平衡的方法 - 一种可以帮助用户获得更高质量的翻译但是开发和维护成本不高的方法。

文章是否有答案?

美国麻省理工学院(MIT)的计算机科学家最近发现,书面英语的语法习惯揭示了非母语人士语言的语言特征。

这些语言特征在电子翻译领域可能非常有价值,可能会堵塞漏洞并缩小技术公司过去曾尝试过和失败的差距。

麻省理工学院建立了一个系统,该系统梳理了由14种不同语言的母语人士撰写的1000多篇英语论文,分析了每篇文章中每个句子中词语的词性以及它们之间的关系。

发现印欧语系中的所有九种语言都与五种语言明显截然不同,而罗曼语和斯拉夫语在彼此之间的相似性要高于其他印欧语系。语言。

该发现可用于预测没有语言知识的语言的类型特征。

这包括主题,对象和动词的典型顺序,如何形成否定,以及名词是否包含文章,以及语言学家用来表征语言的许多其他句法模式。

迷失在翻译中

近年来机器翻译得到了显着改善,但距离成品还很远。

使用基于规则的机器翻译和统计机器翻译时,文本的含义有时会丢失。

例如,词义消歧是一个问题。当一个单词具有多个含义时,就会出现这种情况,非标准语音或随意发言,这可能导致不准确的翻译和令人尴尬的错误。命名条目 - 包括人员,组织,公司和地方 - 也可能非常困难。

这些只是电子翻译无法取代专业翻译人员的一些原因,他们提供了产生准确翻译所需的人性化。

在书面文本方面,机器翻译无疑在努力追赶翻译方面取得了重大进展,谷歌翻译就是证明这一点。然而,口语方面的速度仍然很快。

对于机器翻译而言,语言太快且分散。错误的开始和无意的错误使得这个过程特别困难,而语调,文化参照,成语和幽默增加了挑战。

因此,翻译人员可以放心,机器翻译仍然远远不能让品牌足够信任他们的营销材料。