统计机器翻译综述0520Word格式.docx

资源描述

统计机器翻译综述0520Word格式.docx

《统计机器翻译综述0520Word格式.docx》由会员分享，可在线阅读，更多相关《统计机器翻译综述0520Word格式.docx（20页珍藏版）》请在冰点文库上搜索。

统计机器翻译综述0520Word格式.docx

统计机器翻译，又称为数据驱动（data-driven）的机器翻译。

其思想其实并不新鲜。

早在1949年，Weaver发表的以《翻译》为题的备忘录中就提出：

“当我阅读一篇用俄语写的文章的时候，我可以说，这篇文章实际上是用英语写的，只不过它是用另外一种奇怪的符号编了码而已，当我在阅读时，我是在进行解码。

”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。

实际上，早期的机器翻译系统通常都建立在对词类和词序分析的基础之上，分析中经常使用统计方法，只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后，统计机器翻译方法几乎不再被人使用。

1990年代初期，IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型，并且在实验中获得了初步的成功，引起了研究者广泛的关注和争议。

不过由于当时计算能力等多方面限制，真正开展统计机器翻译方法研究的人并不多，统计机器翻译方法是否真正有效还受到人们普遍的怀疑。

不过，近年来，随着越来越多的研究人员投入到统计机器翻译的研究中并取得了成功，统计方法已逐渐成为国际上机器翻译研究的主流方法之一。

作者根据所查阅的文献，把基于统计的机器翻译方法大体上分为以下三类：

第一类是基于平行概率语法的统计机器翻译方法，其基本思想是，用一个双语平行的概率语法模型，同时生成两种语言的句子，在对源语言句子进行理解的同时，就可以得到对应的目标语言句子。

这种方法的主要代表有Alshawi的HeadTransducer模型和吴德恺的ITG模型，由于这类方法影响较小，而本文篇幅有限，这里不对这类方法进行介绍。

第二类是基于信源信道模型的统计机器翻译方法，这种方法是由IBM公司的PeterBrown等人在1990年代初提出的[4,5]，后来很多人都在这种方法的基础上做了很多改进工作，这也是目前最有影响的统计机器翻译方法，一般说的统计机器翻译方法都是指的这一类方法。

第三类是德国Och等人最近提出基于最大熵的统计机器翻译方法[9]，这种方法是比信源信道模型更一般化的一种模型。

本文将依次介绍后两类统计机器翻译方法，然后介绍一下在统计机器翻译中经常使用的机器翻译自动评测技术，最后给出总结。

2基于信源信道思想的统计机器翻译方法

2.1IBM的统计机器翻译方法

2.1.1基本原理

基于信源信道模型的统计机器翻译方法的基本思想是，把机器翻译看成是一个信息传输的过程，用一种信源信道模型对机器翻译进行解释。

假设一段目标语言文本T，经过某一噪声信道后变成源语言S，也就是说，假设源语言文本S是由一段目标语言文本T经过某种奇怪的编码得到的，那么翻译的目标就是要将S还原成T，这也就是就是一个解码的过程。

根据Bayes公式可推导得到：

这个公式在Brown等人的文章[4]中称为统计机器翻译的基本方程式（FundamentalEquationofStatisticalMachineTranslation）。

在这个公式中，P（T）是目标语言的文本T出现的概率，称为语言模型。

P（S|T）是由目标语言文本T翻译成源语言文本S的概率，称为翻译模型。

语言模型只与目标语言相关，与源语言无关，反映的是一个句子在目标语言中出现的可能性，实际上就是该句子在句法语义等方面的合理程度；

翻译模型与源语言和目标语言都有关系，反映的是两个句子互为翻译的可能性。

也许有人会问，为什么不直接使用P（T|S），而要使用P（T）P（S|T）这样一个更加复杂的公式来估计译文的概率呢？

其原因在于，如果直接使用P（T|S）来选择合适的T，那么得到的T很可能是不符合译文语法的（ill-formed），而语言模型P（T）就可以保证得到的译文尽可能的符合语法。

这样，机器翻译问题被分解为三个问题：

1.语言模型Pr（t）的参数估计；

2.翻译模型Pr（s|t）的参数估计；

3.搜索问题：

寻找最优的译文；

从1980年代末开始到1990年代中期，IBM的机器翻译研究小组在统计机器翻译的思想指导下进行了一系列的研究工作[4,5,2]并实现了一个法语到英语统计机器翻译系统。

对于语言模型Pr（t），他们尝试了采用n语法、链语法等语法模型。

链语法模型比n元语法模型的优点在于可以处理长距离的依赖关系。

下面我们着重介绍翻译模型。

2.1.2IBM统计翻译模型

对于翻译模型Pr（f|e），IBM公司提出了5种复杂程度递增的数学模型[5]，简称为IBMModel1~5。

模型1仅考虑词与词互译的概率t（fj|ei）。

模型2考虑了单词在翻译过程中位置的变化，引入了参数Pr（aj|j,m,l），m和l分别是目标语和源语句子的长度，j是目标语单词的位置，aj是其对应的源语单词的位置。

模型3考虑了一个单词翻译成多个单词的情形，引入了产出概率φ（n|ei），表示单词ei翻译成n个目标语单词的概率。

模型4在对齐时不仅仅考虑词的位置变化，同时考虑了该位置上的单词（基于类的模型，自动将源语言和目标语言单词划分到50个类中）。

模型5是对模型4的修正，消除了模型4中的缺陷（deficiency），避免对一些不可能出现的对齐给出非零的概率。

在模型1和2中，首先预测源语言句子长度，假设所有长度都具有相同的可能性。

然后，对于源语言句子中的每个位置，猜测其与目标语言单词的对应关系，以及该位置上的源语言单词。

在模型3,4,5中，首先，对于每个目标语言单词，选择对应的源语言单词个数，然后再确定这些单词，最后，判断这些源语言单词的具体位置。

这些模型的主要区别在于计算源语言单词和目标语言单词之间的连接（Connection）的概率的方式不同。

模型1最简单，只考虑词与词之间互译的概率，不考虑词的位置信息，也就是说，与词序无关。

好在模型1的参数估计具有全局最优的特点，也就是说最后总可以收敛于一个与初始值无关的点。

模型2到5都只能收敛到局部最优，但在IBM的实验中，每一种模型的参数估计都依次把上一种模型得到的结果作为初始值，于是我们可以看到最后的结果实际上也是与初始值无关的。

下面以模型3为例，说明一下从源语言（英语）文本产生目标语言（法语）文本的过程：

1.对于句子中每一个英语单词e，选择一个产出率φ，其概率为n（φ|e）；

2.对于所有单词的产出率求和得到m-prime；

3.按照下面的方式构造一个新的英语单词串：

删除产出率为0的单词，复制产出率为1的单词，复制两遍产出率为2的单词，依此类推；

4.在这m-prime个单词的每一个后面，决定是否插入一个空单词NULL，插入和不插入的概率分别为p1和p0；

5.设φ0为插入的空单词NULL的个数。

6.设m为目前的总单词数：

m-prime+φ0；

7.根据概率表t（f|e），将每一个单词e替换为外文单词f；

8.对于不是由空单词NULL产生的每一个外语单词，根据概率表d（j|i,l,m），赋予一个位置。

这里j是法语单词在法语串中的位置，i是产生当前这个法语单词的对应英语单词在英语句子中的位置，l是英语串的长度，m是法语串的长度；

9.如果任何一个目标语言位置被多重登录（含有一个以上单词），则返回失败；

10.给空单词NULL产生的单词赋予一个目标语言位置。

这些位置必须是空位置（没有被占用）。

任何一个赋值都被认为是等概率的，概率值为1/φ0。

11.最后，读出法语串，其概率为上述每一步概率的乘积。

2.1.3搜索算法

从上述IBMModel3的介绍中可以看出，对于统计机器翻译而言，搜索算法是一个严重的问题。

因为搜索空间一般都是随着源语言句子的大小呈指数增长的，要在多项式时间内找到全局最优解是不可能的。

为了在尽可能短的时间内找到一个可接受的译文，必须采用各种启发式搜索策略。

对于搜索问题，IBM采用一种在语音识别取得广泛成功的搜索算法，称为堆栈搜索（StackSearch），这里不做详细介绍。

其他的搜索算法还有柱搜索（BeamSearch）、A*搜索等等。

虽然搜索问题很严重，不过IBM的实验表明，搜索问题并不是统计机器翻译的瓶颈问题。

实际上，统计机器翻译的错误只有两种类型：

1.模型错误：

即根据模型计算出概率最高的译文不是正确译文；

2.搜索错误：

虽然据模型计算出概率最高的译文是正确译文，但搜索算法没有找到这个译文。

根据IBM的实验，后一类错误只占所有翻译错误的5%。

2.1.4Candide系统

与传统的基于转换的机器翻译方法相比，我们可以看到IBM的统计机器翻译方法中没有使用任何的非终结符（词性、短语类等）。

所有的参数训练都是在词的基础上直接进行的。

IBM的研究者基于上述统计机器翻译的思想，以英法双语对照加拿大议会辩论记录作为双语语料库，开发了一个法英机器翻译系统Candide[2]。

Fluency

Adequacy

TimeRatio

1992

1993

Systran

.466

.540

.686

.743

Candide

.511

.580

.575

.670

Transman

.819

.838

.837

.850

.688

.625

Manual

.833

.840

上表是ARPA测试的结果，其中第一行是著名的Systran系统的翻译结果，第二行是Candide的翻译结果，第三行是Candide加人工校对的结果，第四行是纯人工翻译的结果。

评价指标有两个：

Fluency（流利程度）和Adequacy（合适程度）。

（Transman是IBM研制的一个译后编辑工具。

TimeRatio显示的是用Candide加Transman人工校对所用的时间和纯手工翻译所用的时间的比例。

）

从指标上看，Candide已经和采用传统方法的商品系统Systran不相上下，译文流利程度甚至已经超过了Systran。

不过，Candide采用的并不是纯粹的统计模型。

实际上，Candide采用的是也是一种“分析－转换－生成”的结构。

分析阶段使用了形态分析和简单的词序调整，生成阶段也使用了词序调整和形态生成，分析和生成这两个过程都是可逆的。

只有在转换阶段使用了完全的统计机器翻译方法。

这种做法可以达到三个目的：

使隐藏在词语变形之后的英法语对应规则性显示出来；

减少了双语的词汇量；

减轻了对齐的负担。

不过，也正因为这个原因，有人抨击统计机器翻译是“石头汤（StoneSoup）”，并认为在这个系统中真正起作用的还是规则方法，因为英法两种语言词序本身相差就不是太大。

通过预先的词序调整，两种语言的词序更为接近，这实际上避开了IBM统计机器翻译方法的最大问题。

2.1.5IBM统计机器翻译方法小结

IBM提出的统计机器翻译基本方程式具有非常重要的意义。

而IBM的其他工作只是对这个基本方程式的一种理解。

从理论上说，IBM的模型只考虑了词与词之间的线性关系，没有考虑句子的结构。

这在两种语言的语序相差比较大时效果可能会不太好。

如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来，应该会得到更好的结果。

IBM提出的统计机器翻译方法在研究者中引起了相当大的兴趣，很多研究者都开展了相关的工作，并取得了一些进展。

下面简要介绍其中的一些改进。

2.2王野翊（YeyiWang）在CMU（卡内基－梅隆大学）的工作

王野翊在他的博士论文[13]中提出了一种对于IBM统计翻译模型的一种改进方法。

由于IBM的模型完全没有考虑句子的结构信息，这使得人们怀疑IBM模型能否在句法结构相差较大的语言对中获得成功。

王野翊在他的口语机器翻译实验中也发现，由于德语和英语这两种语言存在的结构差异，导致IBM的词对齐模型成为翻译错误的一个重要来源。

为此，王野翊提出了一种改进的统计翻译模型，称为基于结构的翻译模型。

这个模型分为两个层次：

粗（RoughAlignment）对齐模型和细对齐（DetailedAlignment）模型。

首先，源语言和目标语言的短语通过一个粗对齐模型进行对齐，然后短语内的单词再通过一个细对齐模型进行对齐。

粗对齐模型类似于IBMModel2，席对齐模型类似于IBMModel４。

为了在粗对齐阶段实现双语短语的对齐，王野翊引入了一种双语的文法推导算法。

在训练语料库上，通过基于互信息的双语词语聚类和短语归并反复迭代，得到一组基于词语聚类的短语规则。

再用这组规则进行句子的短语分析。

王野翊的实验表明，结构的引入不仅使统计机器翻译的正确率有所提高（错误率降低了11%），同时还提高了整个系统的效率，也缓解了由于口语数据的严重缺乏导致的数据稀疏问题。

2.3约翰霍普金斯大学（JHU）的统计机器翻译夏季研讨班

IBM提出统计机器翻译方法引起了研究者广泛的兴趣。

不过，由于其他人无法得到IBM的源代码，而要进行统计机器翻译的研究，首先需要重复IBM的统计机器翻译试验，然后才谈得上对它进行改进。

这将面临着编码方面巨大的工作量。

于是，在1999年夏天，很多相关的研究者会聚在约翰霍普金斯大学（JHU）的夏季研讨班上，大家共同合作，重复了IBM的统计机器翻译试验，并开发了一个源代码公开的统计机器翻译工具包——Egypt。

在这以后，这些研究者回到各自的研究机构，继续开展相关的研究工作，并提出了各种改进的模型，使得统计机器翻译的研究又出现了一个新的高潮。

在约翰霍普金斯大学的1999年统计机器翻译夏季研讨班上，研究者们构造了一个基本的统计机器翻译工具集Egypt，并将该工具集在感兴趣的研究者中间自由散发。

在研讨班上，他们使用这个工具集作为试验的平台进行了一系列的实验[1]。

研讨班开始时预期达到的目标如下：

1.构造一个统计机器翻译工具并使它对于研究者来说是可用的。

这个工具集应该包含语料库准备软件、双语文本训练软件和进行实际翻译的实时解码软件。

2.在研讨班上用这个工具集构造一个捷克语—英语的机器翻译系统；

3.进行基准评价。

这个评价应该包含客观评价（统计模型困惑度）和主观评价（质量的人工判断），并试图使二者互相联系。

我们还要产生一个学习曲线，用于显示系统性能如何随着双语语料的数量发生变化。

4.通过使用形态和句法转录机改进系统性能；

5.在研讨班最后，在一天之内构造一个新语对的翻译系统。

研讨班最后完全达到了上述目标。

除此之外，研讨班还完成了以下实验：

提高双语训练的速度，使用双语词典，使用同源词。

研讨班上还构造了一些工具来支持以上实验，包括一个用于浏览词对词对齐的结果的复杂的图形界面，一些准备和分析语料库的工具，和一个人工判断的评价界面。

EGYPT工具包包含以下几个模块：

1.GIZA：

这个模块用于从双语语料库中抽取统计知识（参数训练）。

2.Decoder：

解码器，用于执行具体的翻译过程（在信源信道模型中，“解码”就是“翻译”）。

3.Cairo：

整个翻译系统的可视化界面，用于管理所有的参数、查看双语语料库对齐的过程和翻译模型的解码过程。

4.Whittle：

语料库预处理工具。

Egypt是个免费的工具包，其源代码可以在网上自由下载。

这为相关的研究工作提供了一个很好的研究基础。

2.4Yamada和Knight的工作——基于句法结构的统计翻译模型

南加州大学信息科学研究所（ISI/USC）的KevinKnight是统计机器翻译的主要倡导者之一，在统计机器翻译方面做了一系列的研究和推广工作，他也是JHU的统计机器翻译夏季讨论班的主要组织者之一[6]。

Yamada,Knight等人在IBM的统计翻译模型的基础上，提出了一种基于句法结构的统计翻译模型[14]。

其主要的思想是：

1.IBM的信源信道模型中，噪声信道的输入和输出都是句子，而在基于句法结构的统计翻译模型中，噪声信道的输入是一棵句法树，输出是一个句子；

2.在翻译过程中，对源语言句法树进行以下变换：

a）对句法树进行扁平化处理（将相同中心词的多层结点压缩到一层）；

b）对于源语言句法树上面的每一个结点的子节点进行随机地重新排列（N个子节点就有N!

种排列方式），每一种排列方式都有一个概率；

c）对于句法树任何一个位置随机地插入任何一个新的目标语言单词，每一个位置、每一个被插入的单词都有不同的概率；

d）对于句法树上每一个叶节点上的源语言单词翻译成目标语言单词，每一个不同的译文词选择都有不同的概率；

e）输出句子，其概率为上述概率的乘积。

从现有的文章中看，他们的实验采用了一个从英日词典中抽取的例句语料库，一共只有2121个句子，平均句长不到10个词。

虽然其结果比IBMModel5更好，不过由于他们的实验规模还比较小，严格来说并不具有足够的说服力。

2.5Och等人的工作

德国RWTHAachen–UniversityofTechnology等人在统计机器翻译领域也开展很多的工作。

在德国主持开发的著名的语音机器翻译系统Verbmobil中，Och所在的研究组承担了其中统计机器翻译模块[7]。

与IBM的模型相比，他们主要做了以下改进：

1.为了解决数据稀疏问题，他们采用了基于类的模型，利用一种自动的双语词聚类技术，将两种语言的每一个词都对应到一个类中，总共使用了400个类；

2.在语言模型上，采用了基于类的五元语法模型，采用回退（Back-off）平滑算法；

3.在翻译模型上，采用了一种称为对齐模板（AlignmentTemplate）的方法，实现了两种层次的对齐：

短语层次的对齐和词语层次的对齐。

对齐模板也采用基于类的对齐矩阵的形式表示，如下图所示：

对齐模板的获取是自动进行的，在对训练语料进行词语对齐以后，所有可能的对齐模板都被保存下来，并根据其在语料库中出现的频率赋予不同的概率。

对于一个新句子进行短语匹配的过程类似于一个汉语词语切分的过程，采用一个动态规划算法，寻找概率最大的路径。

4.为了搜索的方便起见，他们对于IBM提出的统计机器翻译基本方程式进行了修改，用一个反向的翻译模型取代了正常的翻译模型，如下所示：

通过实验他们发现，这种改变并没有降低总体的翻译正确率。

3基于最大熵思想的统计机器翻译方法

正如上一节所述，Och等人在进行统计机器翻译实验时发现，把IBM统计机器翻译基本方程式中的翻译模型换成反向的翻译模型，总体的翻译正确率并没有降低，这用信源信道理论是无法解释的。

于是，他们借鉴了[10,11]中统计自然语言理解的一种思路，提出了基于最大熵的统计机器翻译方法[9]。

这是一个比基于信源信道的统计机器翻译方法更为一般化的一种方法，基于信源信道的方法可以看做是基于最大熵的方法的一个特例。

基于最大熵的方法与基于信源信道的方法不同，没有语言模型和翻译模型的划分（虽然也可以将它们作为特征），因而是一种直接翻译模型。

最大熵，又称最大熵原理，或者最大熵方法，是一种通用的统计建模的方法。

我们这里简单介绍一下最大熵方法的基本思想[3]。

对于一个随机事件，假设我们已经有了一组样例，我们希望建立一个统计模型，来模拟这个随机事件的分布。

为此，我们就需要选择一组特征，使得我们得到的这个统计模型在这一组特征上，与样例中的分布完全一致，同时又保证这个模型尽可能的“均匀”（也就是使模型的熵值达到最大），以确保除了这一组特征之外，这个模型没有其他的任何偏好。

依据这个原则的统计建模方法就是最大熵方法。

假设e、f是机器翻译的目标语言和源语言句子，h1（e,f）,…,hM（e,f）分别是e、f上的M个特征，λ1,…,λM是与这些特征分别对应的M个参数（权值），那么直接翻译概率可以用以下公式模拟（推导略）：

而对于给定的f，其最佳译文e可以用以下公式表示（推导略）：

可以看到，如果我们将两个特征分别取为logp（e）和logp（f|e），并取λ1＝λ2＝1，那么这个模型就等价于信源信道模型。

在最大熵方法中最常用的做法是采用二值特征，可以用一种IIS算法进行参数训练。

而在基于最大熵的统计机器翻译中，由于采用的特征是一种实数值特征，模型的参数不能使用通常IIS算法进行训练。

为此[Och,2002]提出了采用了一种区别性学习方法（DiscriminativeTraining），其训练的优化准则为：

这个判定准则是凸的，并且存在全局最优。

Och介绍了他们在基于最大熵的统计机器翻译方法上的一系列实验[9]：

1．首先将信源信道模型中的翻译模型换成反向的翻译模型，简化了搜索算法，但翻译系统的性能并没有下降；

2．调制参数λ1和λ2，系统性能有了较大提高；

3．再依次引入其他一些特征，系统性能又有了更大的提高。

他们引入的其他特征包括：

1．句子长度特征：

对于产生的每一个目标语言单词进行惩罚；

2．附件的语言模型特征：

一个基于类的语言模型特征；

3．词典特征：

计算给定的输入输出句子中有多少词典中存在的共现词对。

可以看到，采用基于最大熵的统计机器翻译方法，确实比简

展开阅读全文