焦点期刊
投稿咨询

著作编辑 著作编辑

咨询邮箱:1117599@qq.com

写作指导

平行语料库的分类与语料对齐

时间:2023-09-21 22:10 所属分类:写作指导 点击次数:

  译学研究语料库指的是以翻译语料或双语语料为收录对象,用于译学研究的语料库主要包括那三种:平行语料库、可比语料库、翻译语料库(胡开宝,2022:19)。本次我们先介绍平行语料库。

  一、平行语料库的分类

  平行语料库,是指由一种语言的原创文本及其在另一种(或几种)语言中的翻译文本所构成的语料库。平行语料库按照涉及语种的数量可以分成两类:双语平行语料库和多语平行语料库。平行语料库按照语料平行对应的方向可以分为三种:单向平行语料库,也即英译汉或汉译英这一种方向;双向平行语料库,即语料库里不单单包括一个方向,可能包括另一个方向,比如既有英译汉也有汉译英;多向平行语料库则更加多元化,包括多个方向。

  二、平行语料库的语料对齐

  (一)语料对齐的概念

  肖忠华教授等多位专家一致认为,语料间的对齐在平行语料库的建设使用中都是一个关键步骤。一般情况下,平行语料库的翻译研究第一步就是要对齐语料。没有语料对齐我们就无法进行检索,更无法达到研究目的,因此语料对齐很关键。语料对齐是指两种或多种语言文本的不同语言单位之间建立一种对应关系,即确定源语文本的哪个语言单位和目标文本的哪个语言单位互为翻译关系。

  (二)语料对齐的分类

  对齐的方式按语言单位可划分为段落对齐、句式对齐、短语对齐和词对齐四种。这四种单位的顺序是从大到小排列,也即按照段落——句子——短语——词汇这样的层次。实践表明,对齐单位越小,处理难度就越大。因此,段落对齐相对容易一点。我们在翻译时,除特殊情况外,一般都是原文为一个段落,译文也基本保持一个段落。短语对齐和词对齐目前正处于研究当中,更多对齐都是句子对齐。

  (三)语料对齐的工具

  语料对齐从原则上讲可以分为人工对齐和工具对齐两种,工具对齐可以细分为在线和线下两种。Tmxmall和“金声语料对齐助手”都属于在线对齐工具,这类在线工具只需工作人员联网(确保网络连接正常)加载文本,然后按照步骤操作,就可以实现语料对齐。

  线下对齐工具包括三种类别。第一个是软件内嵌的语调对齐模块,有些软件本身是一个复合体,里面包括对齐模块。第二个是独立的语料对齐工具,也即该软件专门用来对齐语料。第三个是编程对齐工具,我们可以通过r语言等编程开发一些对齐工具满足个性化的需求。