术语管理,5-提取

术语管理,5-提取

术语管理(5)-提取

您使用的术语出现在任何书面文本中,无论是网页、小册子、手册、指南、合同还是报告。......

有人必须阅读所有文本,决定术语是什么,并提取(复制/粘贴)它。这可以通过工具来帮助,但是不要搞错,工具并不智能。大多数术语抽取工具都是基于统计的——一个术语出现的次数越多,它就越重要。情况并非总是如此。一个重要的术语可能只出现两次,一次在标题中,一次在第一段,然后可能会以缩写形式提及。在这种情况下,大多数统计工具不会提取该术语,因为它似乎少于五次。

语言提取工具是有的,但是仅限于为其构建的语言对,并不适用于所有的语言对。例如,它们至少可以被配置为提取最多4个单词的名词短语,这通常是术语列表的良好候选。统计工具会创建大量可能的术语列表,但是您需要检查这个列表中的实际术语。

术语管理,5-提取

根据我的经验(主要是英德技术和医学文献提取),是有门槛的,用工具提取更有意义。我发现正文高达20000字。如果你是逐句阅读文本,手动选择术语或者运行统计抽取工具,然后浏览列表,标记你想要的术语,那么真的没什么区别。之后用工具提取更快。

大多数翻译工具都有一个允许提取术语的组件,可以用于单语(通常是源语言)材料和双语材料,即翻译记忆库、双语文件或翻译期间的文件对齐。

为了估计能抽取多少术语,我通常使用工具抽取的术语或文档总字数的20%或5%到15%左右,这取决于它们是更通用还是更专业。

在选择术语时,确保您已经定义了要寻找的术语类型(参见本系列的第3部分:术语工作(3)-基本决策)。