第5课翻译记忆研究-课程讲义.pptx

资源描述

第5课翻译记忆研究-课程讲义.pptx

《第5课翻译记忆研究-课程讲义.pptx》由会员分享，可在线阅读，更多相关《第5课翻译记忆研究-课程讲义.pptx（55页珍藏版）》请在冰点文库上搜索。

第5课翻译记忆研究-课程讲义.pptx

计算辅助翻译原理与实践俞敬松,第5课翻译记忆Lecture5:

TranslationMemory,翻译记忆？

翻译记忆！

“让历史告诉未来”,第1节翻译记忆的缘起,从机器翻译开始，可惜,机器翻译是计算机处理自然语言的最直接最根本的动力当然，代替人手工翻词典，也可算是动力之一吧机器翻译非常复杂规则式机器翻译；统计式机器翻译；n种模型,翻译记忆很简单记住做过的翻译，随后应用,它，却成为了译员们工作中真正使用着的利器！

翻译记忆,TranslationmemoryFromWikipedia,thefreeencyclopediaAtranslationmemory,orTM,isadatabasethatstoressegments,whichcanbesentences,paragraphsorsentence-likeunits（headings,titlesorelementsinalist）thathavepreviouslybeentranslated,inordertoaidhumantranslators.Thetranslationmemorystoresthesourcetextanditscorrespondingtranslationinlanguagepairscalled“translationunits”.,使用翻译记忆工具最简单最直接的动力,对个体：

节省劳动，提高劳动生产率对翻译工作：

提高一致性对翻译公司：

整体生产率提高，生产成本降低；语言资产，是翻译公司核心竞争力的一部分效率！

质量！

翻译记忆的最初形态,计算机逐渐从实验室，计算中心变为个人的大玩具和工作平台：

译员们可以扔掉打字机-字处理软件翻译工作量的增加翻译工作的性质，工程文档越来越多，文字重复是这类文档区别于传统文学翻译的显著特点之一,AppleII,andApple-IIe,SharpMZ-8,0，MZ2000,IBM-PCandIBMPC-XT,翻译记忆技术发展的推动者们,MartinKay:

“ProperPlace”,PeterArthernAlanMelby，Sumita，TsutsumiALPS（AutomatedLanguageProcessingSystems）ToolsSadlerandVendelmansBilingualKnowledgeBankBrianHarrisBi-textThefirstcommercialTMtool：

Trados（SDLTradosnowadays）,翻译记忆工作的流程,读取待翻译的句子；将待翻译的句子送到翻译记忆库中检索，看看有无翻译过；如果不存在已经翻过的句子，就等待译员翻译并打字输入。

翻译结束后，将原文和译文存入翻译记忆库；如果存在即有的翻译句，那么就输出既往的译文，供译员使用或适当的予以订正；循环重复，直到译完最后一句待翻译句，翻译工作全部完成。

计算机怎么判断“句子”？

怎么检索？

翻译记忆存储单位翻译单元获得翻译记忆,第2节翻译记忆若干关键问题之一,翻译记忆存储单位翻译单元,工作-拆解翻译工作-拆解,子工作子翻译工作,子翻译工作？

字、词、短语、片段、子句、句子、句群、段落乃至篇章,单位大些还是小些？

必要性（可重复利用吗？

）重复出现的可能性重复出现时，翻译是否可以使用呢？

可行性（能否做到？

）不是所有的自然语言单位都有清晰定义不是所有的单位都容易分辨处理,使用翻译记忆必须检查后再利用！

翻译单元的最佳选择,亚句级别的单位：

词、词组、语块、子句句子级别句子以上级别：

句组和段落,句子的自动识别和切分,句子识别也是问题吗？

对人来说，如果达到数学般精确，显然是对计算机来说，肯定是分隔标志：

标点符号英语：

句点（.）、问号（?

）以及叹号（!

）,句点的功能,http:

/en.wikipedia.org/wiki/Period_（punctuation）,192.168.0.1Rev.,数字3.1415926535缩写U.S.A.,称呼,Mr.Mrs.,GeorgeW.Bush.,省略号的一部分分隔号逗号对某些语言来说可能有些互换,http:

/Carefreemeansfreefromcareoranxiety.Carefreemeansfreefromcareoranxiety.,识别句子的方法,规则方法穷尽所有的可能性，例如诸如正则表达式这样的工具进行识别写得越多，越要注意重复和冲突统计方法给定一个语料库，人工判断哪些句点是句子的分隔符做好标记；机器学习程序：

训练-获得模型-处理其他文章（解码）,亚句级别的翻译记忆,确实有用，因为重复出现的可能性高多了；但不好做，因为虽然重复出现得多，但出现多种翻译的可能性也增加了与术语管理还是有区别的加入此项技术后，是否给译员增加负担？

机器翻译的发展,例如层次短语模型，树模型，EBMT等，都可能在这个技术的中间地带得到利用,另辟蹊径，不划分翻译单元可以吗？

似乎可以，利用信息检索技术直接存储原文和译文，大致找到对应关系（对齐）关键词倒排索引检索，相似度计算，找到更相似片段输出原文和译文段，译员自行判断和使用程序很好写，用起来也还行，就是效率低致命伤,获得翻译记忆,最自然，最直接,一边翻译，一边存储存储成?

特定软件的翻译记忆库文件,开放格式的记忆库文件TMX批量导入过去译好的文件建立翻译记忆库,http:

/,自动对齐双语句子的原理,语言长度的等比例现象不同语言的对等翻译之间，以字符/词计算的长度比例是近似固定的英语：

汉语字符比大约3:

1源语言方向会更精炼些英语词：

汉语字符大约1.6:

1,自动对齐双语句子的原理,两种语言都先分句，数出每一个句子的字符数动态规划方法：

对齐模式1:

1,1:

0,0:

1,1:

2,2:

1,全局扫描，达到每句话的对应比例最均衡（评价函数）各种动态规划算法，提高效率改进：

词汇信息对应先发现对齐最准确的锚点句后再对齐其他句子,双语句对齐的工作实践,纯文本的对齐？

带格式文本的对齐！

先对齐格式，再对齐文本对齐软件必须懂得识别文件格式,例如DOC自动对齐后，为了达到译员可以使用的水平，必须有手工校正的环节软件设计的水平，用户体验的高下，多人协同作为翻译公司资产的重要部分翻译记忆库的生产和管理翻译记忆库的分发，安全，回收，版本，质量,翻译记忆的存储和使用问题句子之间的相似度计算匹配,第3节翻译记忆若干关键问题之二,翻译记忆库,直观感觉：

一句一句的存储，但是语言的存在需要环境，即上下文，才有更明确意义！

翻译记忆库越大越好，重复率才能高啊,翻译记忆库的存储顺序,文本的意义确实与上下文环境相关前面反复强调译员使用翻译记忆的规则：

译员在沿用翻译记忆之前必须检查核对！

检查的是什么？

上下文！

上下文对于机器来说可以理解为：

窗口,自然语言处理中的“窗口”,窗口就是指待处理对象的周围环境。

文字是按照字符序列写作和存储的，“窗口”显然就是前后文字了。

待处理对象：

词汇，句子，窗口大小：

向前，向后观察的距离待翻译的句子的前后句子数量对于翻译任务，选择1，即前一句，后一句,上下文“匹配”，完美“匹配”,存储一个待翻译的句子的原文和译文对的同时，存储前一句和后一句如果下次复用的时候，发现，不但当前翻译句和原来存储的句子一致，而且前后句子都一模一样样，那么：

“上下文匹配”，“完美匹配”就有了,翻译记忆库的大小,越大越好？

大就行了吗？

翻译记忆库，在某种意义上来说，自然是大些好前提是：

译员使用的翻译记忆库必须是与自己当前的翻译工作是相关的翻译记忆库运行所需的软件和硬件拥有相当的存储和检索能力,翻译记忆库的使用规则之二,相关的判定准则公式：

任务客户领域行业通用翻译记忆库的适当大小除了硬件软件能力之外译员的认知负担是最需要考虑的问题,句子之间的相似度,人可以模糊判定两个句子是否相似，但计算机不行完全一致，最容易，即字符对字符的一致但此规则有时候会显得过于严格,相似度计算的意义和目标,检验待翻译句与翻译记忆库中的存储句子之间的相似度：

必须有一定的弹性和宽容度翻译句子的相似程度最好能够告诉译员，便于译员进行判断,相似度计算有难度,待翻译句：

昨天，张先生欣喜地来到了恭王府翻译记忆库：

1997年3月5日，张先生高兴的来到了北京城。

（2）大前天，乔峰欣喜地来到了石家庄。

（3）庚子年八月的一天，玉格格沉着脸来到了恭王府。

先不考虑其他，只在字符级别计算,莱文斯廷编辑距离（Levenshteindistance）算法http:

/en.wikipedia.org/wiki/Levenshtein_distancehttp:

/zh.wikipedia.org/wiki/%E7%B7%A8%E8%BC%AF%E8%B7%9D%E9%9B%A2编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。

许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

当然，编辑所需的原子操作中，替换也可以用删除和插入替换，或者增加更多的操作种类，但不影响我们的讨论。

编辑距离计算的经典例子,Forexample,theLevenshteindistancebetweenkittenandsittingis3,sincethefollowingthreeeditschangeoneintotheother,andthereisnowaytodoitwithfewerthanthreeedits:

“kitten”sittingkittensitten（substitutionofsfork）sittensittin（substitutionofifore）sittinsitting（insertionofgattheend）.显然，用前述方法计算任意两个句子的“距离”，即相似度差值，是完全可以做到了。

编辑距离计算的各种优化方法,计算对象，可以是：

字符，也可以是词编辑动作的权重可以调整部分语言部件可以捆绑为一个计算单位，或根本不进行计算。

“非译元素”：

数字，网址；格式标签,编辑距离计算的各种优化方法,词汇间的语义差值计算需要依赖：

普林斯顿大学WordNet北京大学中文概念辞书CCD词汇语义的差值，可以修正编辑距离的计算比如：

高兴vs.欣喜,编辑距离计算的各种优化方法,命名实体的检测：

http:

/en.wikipedia.org/wiki/Named_entity命名实体（namedentity）：

所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的语言单位。

广义的命名实体还可以包括表达数字、日期、货币、地址等等的语块。

编辑距离计算的各种优化方法,计算编辑距离前，先进性命名实体的识别昨天，张先生欣喜的来到了恭王府日期，人名欣喜地来到了地名1997年3月5日，张先生高兴的来到了北京城。

日期，人名高兴的来到了地名,编辑距离计算的各种优化方法,句法结构上的相似度子句及其他亚句级的对齐、相似度计算识别源语言句子的句法结构，比如结构树，或者依存树都行，考虑句子的相似度先考虑结构，再考虑词汇；识别出子句或其他亚句级单位，进行相似度计算事实证明，某些实验室工作很有“创新”意义；但在商业软件中很难得到应用：

译员们工作时的认知负担！

越小的负担，越好的体验！

相似度计算匹配问题,字符串级别的一致：

ExactMatch商业翻译记忆系统的标配：

非译元素非译元素也不大可能解决的问题：

模糊匹配（FuzzyMatch）,句子相似度计算算法得到的可能对译员有参考价值的句子排序输出；相似度算法的要点就在于让相似度数值的排序，与译员心目中翻译记忆库中的可能参考的句子的可用性成稳定的正比例关系；相似度的数值有多种算法，对于相似度数值的解释也可能各不相同。

模糊匹配的相似度排序,极值：

100%，精确匹配，0%，没有任何相似模糊匹配的阈值，通常由译员自行设定。

记忆库大小（越大的翻译记忆库，越可能有更多的相似句子；认知负担高低（输出句子越多，阅读负担越大）,适用性优缺点分析,第4节翻译记忆工具的优缺点,翻译记忆工具的适用性,工程性质的文档，适用性最高科技类次之人文社科、文学类最低重复现象是否存在？

重复出现的句子，是否能使用同样的译文输出？

翻译任务的交付,原文，翻译要求原文，翻译要求，曾经的翻译文档（过去的版本），相关文献等原文，翻译要求，翻译记忆库，术语库翻译记忆库的批量建立翻译记忆库的选择性使用,翻译工作的交付,译文翻译记忆库术语库,商业翻译记忆工具的优点,“做过的事情就不要再做了”，节省翻译的重复劳动增加了翻译的一致性相同句段译文的一致原文与译文格式一致与术语系统结合，保证术语翻译的一致性提高翻译速度：

不仅仅是重复发生，优秀的适合翻译工作的译员工作平台，节省了大量的繁琐工作降低了翻译成本：

可惜的是，翻译记忆未必增加译员的个体工资方便了翻译语言资源的查找与管理：

语言资产的建立和维护,翻译记忆工具的缺点,翻译记忆工具的理论缺陷翻译记忆库提供的参考译文的可用性难以保证翻译记忆的质量管控：

谁有资格写入，谁有资格读出和使用？

翻译记忆系统割裂了原文的连续性（曾经）基于句段的翻译模式造成了翻译中句序调整的困难技术环境下工作带来的问题翻译人员能否适应，培训的需要，学习的代价和负担逐句段翻译的习惯带来的弊病，缺乏上下文观念，依赖性、惰性翻译记忆管理的专业化需求，翻译公司对专业化分工管理的需要成本问题商业软件价值比较高昂，但分摊成本还是非常有限的管理维护带来的人工成本不断地升级带来的学习成本与其他管理系统的融合，也会带来成本,翻译记忆工具的发展方向,自然语言处理技术的发展相似度计算机器翻译/交互式机器翻译用户界面、用户体验网络化工作平台翻译、翻译工作管理、翻译工程管理、翻译公司管理系统的融合新的云计算技术、大数据技术的引入,软件学习建议,仔细观看软件操作演示录像：

一边看，一边做读软件说明书、读帮助保持好奇心，多尝试有不可解决的问题，多多参与讨论,谢谢观看！

展开阅读全文