语料库建设及使用专题研修班.pdf

资源描述

语料库建设及使用专题研修班.pdf

《语料库建设及使用专题研修班.pdf》由会员分享，可在线阅读，更多相关《语料库建设及使用专题研修班.pdf（28页珍藏版）》请在冰点文库上搜索。

语料库建设及使用专题研修班.pdf

语料库建设及使用专题研修班1语料库建设及使用专题研修班时间：

时间：

2014年11月8-9日地点：

地点：

上海海事大学2C305（计算机实验室）主讲人主讲人：

北京外国语大学中国外语教育中心梁茂成李文中许家金一、基本概念一、基本概念1.为什么欧洲对语料库语言学会有如此大的兴趣呢？

在美国占统治地位的Chomsky语言学的研究焦点是句法，它感兴趣的是哪些句子是可能的（Whatispossible?

），追求的是语言理论的“解释力”，例如Colorlessgreenideassleepfuriously、Theratthecatthedogchasedatedied都是可能的，但语料库语言学对此却没有兴趣。

因为实际上没有人会这样说。

语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的（Whatisprobable?

），这和统计学中的概率有关，不是可否的问题，而是多少的问题，也就是语言的使用问题。

2.一个小型文本集并不是真正意义上的语料库。

真正意义上的语料库真正意义上的语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。

可以说，一个语料库由若干个电子文本构成，而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。

语料库语言学以大量精心采集而来的真实文本（authentictexts）为研究素材，主要通过概率统计的方法得出结论，因此语料库语言学从本质上讲是实证性的（empirical）。

3.文本：

文本可以保存生（生（raw）语料）语料，即未经任何标注的语料，称为生文本（rawtext）。

文本中也可以保存经过人工或自动标注的语料，这种文本称为标注文本标注文本（annotatedtext）。

文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。

4.经人工或自动处理后，原来的生文本获得了“增值”（Leech1991），文本中所包语料库建设及使用专题研修班2含的多种信息可以通过语料库分析软件提取出来，为人们分析和研究语言提供大量的实证数据。

然而，Sinclair等并不主张对文本进行标注，倡导干净的文本（cleantext），这样我们在观察语言时才可以脱离现有理论的束缚。

5.形符（形符（token）是一个语言单位。

语料库语言学中一般将its视为两个形符。

总形符数是语料库容量的最常用的测量单位。

如英国国家语料库约有1亿个词，说的就是该语料库中包含有约1亿个形符。

6.类符（类符（type）指不重复计算的形符数。

换言之，在一个文本中，重复出现的形符只能记作一个类符。

以美国作家GertrudeStein的作品SacredEmily中的诗句Roseisaroseisaroseisarose.为例，这句中共有10个形符，而类符只有3个（即rose,is,a）。

据此，我们可以计算这个句子的类符/形符比（type-tokenratio,TTR，又称为形次比），即TTR=（3/10）*100%=307.类符类符/形符比形符比是衡量文本中词汇密度（lexicaldensity）的常用方法。

然而如果文本中有大量的功能词（functionwords，如the、a、of等）反复出现，文本每增加一个词，形符就会增加一个，但类符却未必会随之增加，这样，文本越长，功能词重复的次数也就越多，类符/形符比也就会越低。

常用的补救方法是用标准化类符/形符比（standardizedtype-tokenratio）来计算词汇密度。

计算方法是，计算每个文本每1,000词（1,000词是参考值，可根据文本的长度进行适当调整）的类符/形符比，将所得到的若干个类符/形符比进行均值处理，最终得到的数值即为标准化类符/形符比。

8.概率（概率（probability）是语料库语言学中最重要的基本概念之一。

语料库语言学的目标之一是解释各种语言现象是否可能发生及其发生概率的大小（参见Kennedy1998:

270）.语料库语言学有两大支撑点，其一是大量的真实语言使用实例，其二是统计学理论及方法，这使得语料库语言学十分有别于基于“理想的本族语者”的直觉的研究方法。

9.频率（频率（frequency）是语料库语言学中最重要的概念之一。

我们可以降学习者语料库中某词的使用频数、学习者语料库容量、本族语者语料库中该词的使用频语料库建设及使用专题研修班3数、本族语者语料库的容量共4个数值输入四格列联表，通过卡方检验来确定该词在学习者语料库中是否被过多使用（overused）或过少使用（underused）。

10.索引（索引（concordance）又称“语境中的关键词”（keywordincontext,KWIC），指的是运用索引软件（concordancer）在语料库中查询某词或短语的使用实例，然后将所有符合条件的语言使用实例及其语境以清单的形式列出。

11.搭配搭配（collocation）并不是某个词语单方面的行为，我们至少应该从两个词语各自的出现频数（occurrences）和共现频数（co-occurrences）两方面来考察搭配的强度。

据此，人们提出了互信息（MI/mutualinformation）、MI3、Z-score、对数似然率（log-likelihood）等众多测量搭配强度的方法。

12.与搭配相关的另一个概念是“类联接类联接”（colligation）。

类联接关注的同样也是“结伴关系”。

与搭配不同的是，类联接所关注的“结伴关系”不再局限于词汇层面，而上升到词类乃至语法层面，如形容词经常与名词构成类联接。

13.多词序列（多词序列（MWE/multiwordexpressions）又称多词单位（MWU/multiwordunits）、复现词组（recurrentwordcombinations）等。

研究表明，本族语者往往是整块地提取预先存放在大脑中的多词序列，这样才得以把更多的认识资源用于内容整合、句法加工等方面。

在对单语语料库进行研究时，人们常常借助于语料库分析工具，提取和分析出现频率最高、具有较完整的意义的那些多词序列，近年来谈论较多的短语学（phraseology）主要探讨的就是这个主题。

在对平行语料库进行研究时，人们开始关注对应单位（correspondingunits，或称翻译单位translationunits），试图为语言对比和机器翻译提供一种新的方法。

14.很多词看起来并不带有明显的感情色彩。

然而人们通过对索引行的观察发现，有些词貌似中性词汇，但当它们与某些特定词汇为伴构成搭配或类联接时，会产生一些联想意义（如褒贬、好恶等）。

如cause一旦后接宾语，就往往会产生一种不良的联想意义，这便是我们说的语义韵（semanticprosody）。

15.正则表达式（正则表达式（regularexpressions，简称，简称regex或或regexp）是计算机汇编语言中的一种技术，用于匹配文本中的字符串（如词、短语、电子邮件地址等）。

语料库建设及使用专题研修班4考虑到有些词英式英语和美式英语的拼法不同，还存在动词的各种屈折形式，在对赋码语料的检索和文本清洁过程中，我们就不得不使用正则表达式了。

16.词性赋码词性赋码指根据文本中的上下文信息，自动标注文本中所有词的词性的过程。

即，利用现有的计算机程序，可以在文本中各类名词、动词、形容词等所有词之后加上对应的标签，以方便检索和语言处理。

17.元信息（元信息（metadata）即关于信息的信息。

语料库的主要信息载体是文本，而标注即是关于文本的信息。

元信息标注为语料库检索和分析提供查询条件和依据。

利用元信息对语料库进行检索，是语料库的一种高级运用，如利用元信息设定语料的条件，由一个大型语料库快速构建一个子语料库，或者在一个语料库中查找符合设定条件的文本。

二、语料库研究基本范式：

1.基于语料库的方法（基于语料库的方法（corpus-basedapproach）。

基于语料库的方法并不反对也不试图推翻传统的语言理论，也不排斥研究者的直觉。

而是由研究者根据以往的语言研究成果或对语言的认识，首先提出假设，然后到语料库中去验证假设。

假设是否成立取决于语料库中的语言实例。

在这种研究中，一些传统的概念和理论被进一步验证或延伸。

基于语料库的研究方法以概率为基础，是统计学和实证研究方法在语料库语言学领域的具体应用。

2.语料库驱动的方法（语料库驱动的方法（corpus-drivenapproach）。

）。

这种方法主张，我们在对语料库进行分析之前并无任何假设，通过对语料库中的所有例证进行穷尽的分析和归类，得出有关语言使用情况的假设乃至结论。

语料库驱动的研究方法的基本程序是“观察假设归纳理论整合”。

（摘自：

梁茂成、李文中、许家金，2010，语料库应用教程。

北京：

外语教学与研究出版社。

）语料库建设及使用专题研修班5三三、语料库软件；语料库软件；1.BFSUPowerConc（检索工具）（检索工具）例例：

上海海事大学_WORKSHOPTools01检索工具01BFSUPowerConc1.0.beta21cSample_texts语料库建设及使用专题研修班62.TreeTaggerforWindows自动词性赋码器自动词性赋码器（标注工具（标注工具）（生文本须放在TreeTagger_3_English的文件夹下，标注好的文件在TAGGED文件夹下）语料库建设及使用专题研修班73.BFSUQualitativeCoder（标注工具）（标注工具）例：

例：

上海海事大学_WORKSHOPTools02标注工具BFSUQualitativeCoder1.2CLEC_sample（备注：

上述语料库为大学生英语语料库（大学生英语语料库（CLEC）中的四级作文语料库）中的四级作文语料库）语料库建设及使用专题研修班84.Yacsi0.96_汉语分词标注工具汉语分词标注工具（修改计算机时间到2011年或以前）语料库建设及使用专题研修班95.元信息元信息（metadata）的的设置与添加设置与添加：

在template中的两个之间添加元信息，然后再用Headappend（标注工具）（标注工具）添加。

语料库建设及使用专题研修班106.Sub-corpuscreator（检索工具检索工具）：

建子语料库例：

例：

上海海事大学_WORKSHOPData02_Learner_corporaMICUSP语料库建设及使用专题研修班117.用AbbeyAligner对齐文本（文本处理）后保存为TMX格式，在EditPadPro（文本处理）中：

1清除所有英语、汉语：

首代码+.*?

+尾代码（注意勾选RegularExpression和DotMatchesNewline）2除去剩余标签：

+（若只除去标签，那就得到mixed版本）3除去空行：

s+rn+4OptionsLineNumbers：

检查中英文行数是否一致。

5另存为：

文件名”EN/ZH.txt”，保存类型改为txt。

再将编码改成：

ANSI（注意保存到文件夹parallel，因为BFSUParaConc软件只支持ANSI编码文本，不支持Unicode编码文本。

）例例：

上海海事大学_WORKSHOPData03_More_texts中国哲学简史英语、中文语料库建设及使用专题研修班12语料库建设及使用专题研修班13语料库建设及使用专题研修班14语料库建设及使用专题研修班15语料库建设及使用专题研修班16语料库建设及使用专题研修班178.BFSUParaConc（检索工具）（检索工具）：

用来检索平行双语语料库：

语料库建设及使用专题研修班189.KeywordsPlus（检索工具（检索工具，可以用来计算可以用来计算loglikelihood）：

用来比较两个语料库，一个是观测语料库（observedcorpus，如上海海事大学_WORKSHOPData02_Learner_corporaWECCL_sample），一个是参考语料库（referencecorpus，如上海海事大学_WORKSHOPData01_General_and_native_corporaNESSIEv1.0）。

汉语文本要分词要分词，以及设置（见下图）；例例2：

上海海事大学_WORKSHOPData04_Other_resources政府工作报告和上海海事大学_WORKSHOPData01_General_and_native_corporaToRCH2009ToRCH2009_ANSI语料库建设及使用专题研修班1910.TextSmith（检索工具）（检索工具）：

如对文本内部进行切分，分成10个子语料库，进行比较。

语料库建设及使用专题研修班20四四、语料库语言学研究中的主题词分析方法（梁茂成）、语料库语言学研究中的主题词分析方法（梁茂成）：

1.Keyword:

Akeywordisawordwhoserelativefrequencyinanobservedcorpusisunusuallyhigherorlowerthanthatinareferencecorpus.（如，学习者语料库与本族语者（学生）语料库，研究中国学生二语习得，若p值0.05，则两者存在显著差异，注意控制变量，如作文题目最好是一样的）2.Loglikelihood（对数似然率）与p值的对应关系（X2=3.841时，表示两个语料库之间存在显著差异）p0.100.050.0250.010.001Probability0.900.950.9750.990.999X22.7063.8415.0246.63510.828五五、语料库检索中常用的语料库检索中常用的正则表达式正则表达式（注意区分大小写）（注意区分大小写）：

s：

空格.：

任何字符或非字符，如2.4匹配204,214,2t4,24，等+：

重复1次或更多，如A+匹配A，AA，AAA，AAAA等*：

重复0次或更多，如BA*匹配B，BA，BAA，BAAA等？

：

有或者无，如BA？

匹配B和BA（）：

组合，使得（）中的部分可以当作一个符号处理，如act（ing）?

可以匹配act和acting；B（AA）?

匹配B和BAA；B（AA）*匹配B，BAA，BAAAA等w+：

任意数目的字母、数字及两者的组合s+（清洁文本时，若不确定空格有多少，可以用+号，然后replaceall）语料库建设及使用专题研修班21S：

非空格S+：

任何连续的非空格，可以匹配文本中任何可见的符号语料库建设及使用专题研修班22例例1：

上海海事大学_WORKSHOPData01_General_and_native_corporaFour_Genres4Genres_TAG03News所有名词；S+_NS+所有单数名词：

S+_NS+1语料库建设及使用专题研修班23所有复数名词：

S+_NS+2所有“形容词+名词”：

（S+_JS+s）S+_NS+所有名词短语：

（S+_AT1?

s）?

（S+_JS+s）*S+_NS+语料库建设及使用专题研修班24所有被动语态结构；S+_VBw+sS+_VVN所有be+-ing形式：

S+_VBw+sS+_VVG语料库建设及使用专题研修班25例例2：

上海海事大学_WORKSHOPData01_General_and_native_corporaFour_Genres4Genres_TAG03News在BFSUPowerConc中检索正则表达式（见附图）：

例例3：

将“（S+）_（S+）”替换为“$1”：

去除文本中的所有词性赋码语料库建设及使用专题研修班26例例4：

汉语检索（先分词）1.AA：

（pHan）12.AABB：

（pHan）1（pHan）2语料库建设及使用专题研修班27六六、论述论述观点：

观点：

1.英语对我来说始终是一门外语，自知对一门外语的了解和掌握无法和母语使用者相比，自知对一门外语的了解和掌握无法和母语使用者相比。

所以使用英语时，觉得没有多大把握时，就要向母语使用者请教，但是母语使用者也有其年龄、时代、文化、接触面等等局限。

最好的办法是查大型语料库，甚至Google，如果都没有人这样用，就要十分小心。

另外通过不同语料库的频数比较，也可以发现许多语体（包括我国英语学习者的英语）的特点。

正如Keller（1994）所指出的，这是间乎“自然”与“人工”之间的第三种现象，可称为“无形之手（TheInvisibleHand），语言和交际就等于市场、贸易、货币一样，它们不是任何人类设计的产物，而是人类活动的结果。

就等于“花园小径”一样，它虽然是人走出来的，但却不是具体的哪个人在哪个时候走出来的，而是有人先那么走，别人也觉得这样走比较方便，慢慢也顺着走，走多了就成为“小径”了。

语料库的方法更容易昭示这些规约性结果。

2.Sinclair的Corpus,Concordance,Collocation（1991）、ReadingConcordances（2003）和TrusttheText（2004）强调一切以文本为依归，语篇分析和语料库是语言语料库建设及使用专题研修班28研究的两大支柱。

它们的结合有两点好处：

1）我们可以对文本提出很多假设，然后用计算机的手段加以证实。

2）它们所处理的型式维度都比语言学习惯于处理的要多一些。

桂诗春，2014，语料库语言学答客问J,语料库语言学。

七七、语料库资源、语料库资源：

www.BFSU-corpus.org小结：

小结：

语言学/翻译理论框架或研究思路比语料库技术更重要，自建语料库前要明确选题、理论视角及研究目的，根据研究的实际情况，确定具体的语料库软件进行检索、标注标记和文本处理，切忌盲目建库。

作者：

14级外国语言学及应用语言学钱家骏2014年11月15日

展开阅读全文