术语管理(5) - 提取


2019-01-25 08:13:08

术语管理


您使用的术语出现在任何书面文本中,无论是网站页面,小册子,手册,指南,合同,报告......

有人必须阅读所有文本并决定什么是术语并提取(复制/粘贴)它。这可以通过工具来帮助,但不要搞错,工具不是智能的。大多数术语提取工具在统计基础上工作 - 术语出现的次数越多,它就越重要。情况并非总是如此。一个重要的术语可能只出现两次,一个在标题中,一个在第一个段落中,之后可能会以其简短形式提及。在这种情况下,大多数统计工具都不会提取该术语,因为它看起来不到5次。

有语言提取工具,但它们仅限于为其构建的语言对,并不适用于所有语言对。例如,它们至少可以被配置为提取最多4个单词的名词短语,这通常是术语列表的良好候选者。统计工具将创建大量可能的术语列表,但是需要检查此列表的实际术语。

根据我的经验(主要是英语和德语技术和医学文档的提取),有一个阈值,使用工具提取更有意义。我发现文本高达20.000个单词,如果你逐句阅读文本并手动选择术语或运行统计提取工具然后浏览列表并标记你想要的术语,那么它确实没有什么区别保持。之后,使用工具进行提取更快。

术语管理(5) - 提取

大多数翻译工具都有一个允许提取术语的组件,既可用于单语(通常是源语言)材料,也可用于双语材料,即翻译记忆,翻译过程中的双语文件或文件的对齐。

为了估计可以提取多少术语,我通常用约20%或工具提取的列表的术语或文档总字数的5%到15%来计算,这取决于它们是否更多一般或更具技术性。

在提取术语时,请确保已定义了您要查找的术语类型(请参阅本系列的第3部分:术语工作(3) - 基本决策)。