ImageVerifierCode 换一换
格式:PDF , 页数:28 ,大小:5.60MB ,
资源ID:14649659      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-14649659.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(语料库建设及使用专题研修班.pdf)为本站会员(wj)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

语料库建设及使用专题研修班.pdf

1、语料库建设及使用专题研修班 1 语 料 库 建 设 及 使 用 专 题 研 修 班 时 间:时 间:2 0 1 4 年 11 月 8-9 日 地 点:地 点:上 海 海 事 大 学 2 C 3 0 5(计 算 机 实 验 室)主 讲 人主 讲 人:北京外国语大学中国外语教育中心 梁茂成 李文中 许家金 一、基本概念一、基本概念 1.为什么欧洲对语料库语言学会有如此大的兴趣呢?在美国占统治地位的Chomsky 语言学的研究焦点是句法,它感兴趣的是哪些句子是可能的(What is possible?),追求的是语言理论的“解释力”,例如 Colorless green ideas sleep fu

2、riously、The rat the cat the dog chased ate died 都是可能的,但语料库语言学对此却没有兴趣。因为实际上没有人会这样说。语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的(What is probable?),这和统计学中的概率有关,不是可否的问题,而是多少的问题,也就是语言的使用问题。2.一个小型文本集并不是真正意义上的语料库。真正意义上的语料库真正意义上的语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语

3、言的某种变体或文类。语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。3.文本:文本可以保存生(生(raw)语料)语料,即未经任何标注的语料,称为生文本(raw text)。文本中也可以保存经过人工或自动标注的语料,这种文本称为标注文本标注文本(annotated text)。文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。4.经人工或自动处理后,原来的生文本获得了“增值”(Leech 1991),文本中所包语料库建设及

4、使用专题研修班 2 含的多种信息可以通过语料库分析软件提取出来,为人们分析和研究语言提供大量的实证数据。然而,Sinclair 等并不主张对文本进行标注,倡导干净的文本(clean text),这样我们在观察语言时才可以脱离现有理论的束缚。5.形符(形符(token)是一个语言单位。语料库语言学中一般将 its 视为两个形符。总形符数是语料库容量的最常用的测量单位。如英国国家语料库约有 1 亿个词,说的就是该语料库中包含有约 1 亿个形符。6.类符(类符(type)指不重复计算的形符数。换言之,在一个文本中,重复出现的形符只能记作一个类符。以美国作家 Gertrude Stein 的作品 Sa

5、cred Emily 中的诗句 Rose is a rose is a rose is a rose.为例,这句中共有 10 个形符,而类符只有 3个(即 rose,is,a)。据此,我们可以计算这个句子的类符/形符比(type-token ratio,TTR,又称为形次比),即 TTR=(3/10)*100%=30 7.类符类符/形符比形符比是衡量文本中词汇密度(lexical density)的常用方法。然而如果文本中有大量的功能词(function words,如 the、a、of 等)反复出现,文本每增加一个词,形符就会增加一个,但类符却未必会随之增加,这样,文本越长,功能词重复的次数

6、也就越多,类符/形符比也就会越低。常用的补救方法是用标准化类符/形符比(standardized type-token ratio)来计算词汇密度。计算方法是,计算每个文本每 1,000 词(1,000 词是参考值,可根据文本的长度进行适当调整)的类符/形符比,将所得到的若干个类符/形符比进行均值处理,最终得到的数值即为标准化类符/形符比。8.概率(概率(probability)是语料库语言学中最重要的基本概念之一。语料库语言学的目标之一是解释各种语言现象是否可能发生及其发生概率的大小(参见Kennedy 1998:270).语料库语言学有两大支撑点,其一是大量的真实语言使用实例,其二是统计学

7、理论及方法,这使得语料库语言学十分有别于基于“理想的本族语者”的直觉的研究方法。9.频率(频率(frequency)是语料库语言学中最重要的概念之一。我们可以降学习者语料库中某词的使用频数、学习者语料库容量、本族语者语料库中该词的使用频语料库建设及使用专题研修班 3 数、本族语者语料库的容量共 4 个数值输入四格列联表,通过卡方检验来确定该词在学习者语料库中是否被过多使用(overused)或过少使用(underused)。10.索引(索引(concordance)又称“语境中的关键词”(key word in context,KWIC),指的是运用索引软件(concordancer)在语料库

8、中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。11.搭配搭配(collocation)并不是某个词语单方面的行为,我们至少应该从两个词语各自的出现频数(occurrences)和共现频数(co-occurrences)两方面来考察搭配的强度。据此,人们提出了互信息(MI/mutual information)、MI3、Z-score、对数似然率(log-likelihood)等众多测量搭配强度的方法。12.与搭配相关的另一个概念是“类联接类联接”(colligation)。类联接关注的同样也是“结伴关系”。与搭配不同的是,类联接所关注的“结伴关系”不再局

9、限于词汇层面,而上升到词类乃至语法层面,如形容词经常与名词构成类联接。13.多词序列(多词序列(MWE/multiword expressions)又称多词单位(MWU/multiword units)、复现词组(recurrent word combinations)等。研究表明,本族语者往往是整块地提取预先存放在大脑中的多词序列,这样才得以把更多的认识资源用于内容整合、句法加工等方面。在对单语语料库进行研究时,人们常常借助于语料库分析工具,提取和分析出现频率最高、具有较完整的意义的那些多词序列,近年来谈论较多的短语学(phraseology)主要探讨的就是这个主题。在对平行语料库进行研究时

10、,人们开始关注对应单位(corresponding units,或称翻译单位translation units),试图为语言对比和机器翻译提供一种新的方法。14.很多词看起来并不带有明显的感情色彩。然而人们通过对索引行的观察发现,有些词貌似中性词汇,但当它们与某些特定词汇为伴构成搭配或类联接时,会产生一些联想意义(如褒贬、好恶等)。如 cause 一旦后接宾语,就往往会产生一种不良的联想意义,这便是我们说的语义韵(semantic prosody)。15.正则表达式(正则表达式(regular expressions,简称,简称 regex 或或 regexp)是计算机汇编语言中的一种技术,用

11、于匹配文本中的字符串(如词、短语、电子邮件地址等)。语料库建设及使用专题研修班 4 考虑到有些词英式英语和美式英语的拼法不同,还存在动词的各种屈折形式,在对赋码语料的检索和文本清洁过程中,我们就不得不使用正则表达式了。16.词性赋码词性赋码指根据文本中的上下文信息,自动标注文本中所有词的词性的过程。即,利用现有的计算机程序,可以在文本中各类名词、动词、形容词等所有词之后加上对应的标签,以方便检索和语言处理。17.元信息(元信息(metadata)即关于信息的信息。语料库的主要信息载体是文本,而标注即是关于文本的信息。元信息标注为语料库检索和分析提供查询条件和依据。利用元信息对语料库进行检索,是

12、语料库的一种高级运用,如利用元信息设定语料的条件,由一个大型语料库快速构建一个子语料库,或者在一个语料库中查找符合设定条件的文本。二、语料库研究基本范式:二、语料库研究基本范式:1.基于语料库的方法(基于语料库的方法(corpus-based approach)。基于语料库的方法并不反对也不试图推翻传统的语言理论,也不排斥研究者的直觉。而是由研究者根据以往的语言研究成果或对语言的认识,首先提出假设,然后到语料库中去验证假设。假设是否成立取决于语料库中的语言实例。在这种研究中,一些传统的概念和理论被进一步验证或延伸。基于语料库的研究方法以概率为基础,是统计学和实证研究方法在语料库语言学领域的具体

13、应用。2.语料库驱动的方法(语料库驱动的方法(corpus-driven approach)。)。这种方法主张,我们在对语料库进行分析之前并无任何假设,通过对语料库中的所有例证进行穷尽的分析和归类,得出有关语言使用情况的假设乃至结论。语料库驱动的研究方法的基本程序是“观察假设归纳理论整合”。(摘自:梁茂成、李文中、许家金,2010,语料库应用教程。北京:外语教学与研究出版社。)语料库建设及使用专题研修班 5 三三、语料库软件;语料库软件;1.BFSU PowerConc(检索工具)(检索工具)例例:上海海事大学_WORKSHOPTools01 检索工具01BFSU PowerConc 1.0.

14、beta21cSample_texts 语料库建设及使用专题研修班 6 2.TreeTagger for Windows 自动词性赋码器自动词性赋码器(标注工具(标注工具)(生文本须放在TreeTagger_3_English 的文件夹下,标注好的文件在 TAGGED 文件夹下)语料库建设及使用专题研修班 7 3.BFSU Qualitative Coder(标注工具)(标注工具)例:例:上海海事大学_WORKSHOPTools02 标注工具BFSU Qualitative Coder 1.2CLEC_sample (备注:上述语料库为大学生英语语料库(大学生英语语料库(CLEC)中的四级作文

15、语料库)中的四级作文语料库)语料库建设及使用专题研修班 8 4.Yacsi 0.96_汉语分词标注工具汉语分词标注工具(修改计算机时间到 2011 年或以前)语料库建设及使用专题研修班 9 5.元信息元信息(metadata)的的设置与添加设置与添加:在 template 中的两个之间添加元信息,然后再用 Headappend(标注工具)(标注工具)添加。语料库建设及使用专题研修班 10 6.Sub-corpus creator(检索工具检索工具):建子语料库 例:例:上海海事大学_WORKSHOPData02_Learner_corporaMICUSP 语料库建设及使用专题研修班 11 7.

16、用 Abbey Aligner 对齐文本(文本处理)后保存为 TMX 格式,在 EditPad Pro(文本处理)中:1清除所有英语、汉语:首代码+.*?+尾代码(注意勾选 Regular Expression 和Dot Matches Newline)2除去剩余标签:+(若只除去标签,那就得到 mixed 版本)3除去空行:s+rn+4OptionsLine Numbers:检查中英文行数是否一致。5另存为:文件名”EN/ZH.txt”,保存类型改为 txt。再将编码改成:ANSI(注意保存到文件夹 parallel,因为 BFSU ParaConc 软件只支持 ANSI 编码文本,不支持U

17、nicode 编码文本。)例例:上海海事大学_WORKSHOPData03_More_texts中国哲学简史英语、中文 语料库建设及使用专题研修班 12 语料库建设及使用专题研修班 13 语料库建设及使用专题研修班 14 语料库建设及使用专题研修班 15 语料库建设及使用专题研修班 16 语料库建设及使用专题研修班 17 8.BFSU ParaConc(检索工具)(检索工具):用来检索平行双语语料库:语料库建设及使用专题研修班 18 9.Keywords Plus(检索工具(检索工具,可以用来计算可以用来计算 loglikelihood):用来比较两个语料 库,一 个 是 观 测 语 料 库(

18、observed corpus,如 上 海 海 事 大 学_WORKSHOPData02_Learner_corporaWECCL_sample),一个是参考语料库(reference corpus,如上海海事大学_WORKSHOPData01_General_and_native_corporaNESSIEv1.0)。汉语文本要分词要分词,以及设置(见下图);例例 2:上 海 海 事 大 学 _WORKSHOPData04_Other_resources 政 府 工 作 报 告和 上 海 海 事 大 学_WORKSHOPData01_General_and_native_corporaToR

19、CH2009ToRCH2009_ANSI 语料库建设及使用专题研修班 19 10.TextSmith(检索工具)(检索工具):如对文本内部进行切分,分成 10 个子语料库,进行比较。语料库建设及使用专题研修班 20 四四、语料库语言学研究中的主题词分析方法(梁茂成)、语料库语言学研究中的主题词分析方法(梁茂成):1.Keyword:A keyword is a word whose relative frequency in an observed corpus is unusually higher or lower than that in a reference corpus.(如,学习

20、者语料库与本族语者(学生)语料库,研究中国学生二语习得,若 p 值0.05,则两者存在显著差异,注意控制变量,如作文题目最好是一样的)2.Loglikelihood(对数似然率)与 p 值的对应关系(X2=3.841 时,表示两个语料库之间存在显著差异)p 0.10 0.05 0.025 0.01 0.001 Probability 0.90 0.95 0.975 0.99 0.999 X2 2.706 3.841 5.024 6.635 10.828 五五、语料库检索中常用的语料库检索中常用的正则表达式正则表达式(注意区分大小写)(注意区分大小写):s:空格.:任何字符或非字符,如 2.4

21、匹配 204,214,2t4,2 4,等+:重复 1 次或更多,如 A+匹配 A,AA,AAA,AAAA 等*:重复 0 次或更多,如 BA*匹配 B,BA,BAA,BAAA 等?:有或者无,如 BA?匹配 B 和 BA():组合,使得()中的部分可以当作一个符号处理,如 act(ing)?可以匹配 act 和acting;B(AA)?匹配 B 和 BAA;B(AA)*匹配 B,BAA,BAAAA 等 w+:任意数目的字母、数字及两者的组合 s+(清洁文本时,若不确定空格有多少,可以用+号,然后 replace all)语料库建设及使用专题研修班 21 S:非空格 S+:任何连续的非空格,可以

22、匹配文本中任何可见的符号 语料库建设及使用专题研修班 22 例例 1:上海海事大学_WORKSHOPData01_General_and_native_corporaFour_Genres4Genres_TAG03News 所有名词;S+_NS+所有单数名词:S+_NS+1 语料库建设及使用专题研修班 23 所有复数名词:S+_NS+2 所有“形容词+名词”:(S+_JS+s)S+_NS+所有名词短语:(S+_AT1?s)?(S+_JS+s)*S+_NS+语料库建设及使用专题研修班 24 所有被动语态结构;S+_VBw+sS+_VVN 所有 be+-ing 形式:S+_VBw+sS+_VVG

23、语料库建设及使用专题研修班 25 例例 2:上海海事大学_WORKSHOPData01_General_and_native_corporaFour_Genres4Genres_TAG03News 在 BFSU PowerConc 中检索正则表达式(见附图):例例 3:将“(S+)_(S+)”替换为“$1”:去除文本中的所有词性赋码 语料库建设及使用专题研修班 26 例例 4:汉语检索(先分词)1.AA:(pHan)1 2.AABB:(pHan)1(pHan)2 语料库建设及使用专题研修班 27 六六、论述论述观点:观点:1.英语对我来说始终是一门外语,自知对一门外语的了解和掌握无法和母语使用

24、者相比,自知对一门外语的了解和掌握无法和母语使用者相比。所以使用英语时,觉得没有多大把握时,就要向母语使用者请教,但是母语使用者也有其年龄、时代、文化、接触面等等局限。最好的办法是查大型语料库,甚至 Google,如果都没有人这样用,就要十分小心。另外通过不同语料库的频数比较,也可以发现许多语体(包括我国英语学习者的英语)的特点。正如 Keller(1994)所指出的,这是间乎“自然”与“人工”之间的第三种现象,可称为“无形之手(The Invisible Hand),语言和交际就等于市场、贸易、货币一样,它们不是任何人类设计的产物,而是人类活动的结果。就等于“花园小径”一样,它虽然是人走出来

25、的,但却不是具体的哪个人在哪个时候走出来的,而是有人先那么走,别人也觉得这样走比较方便,慢慢也顺着走,走多了就成为“小径”了。语料库的方法更容易昭示这些规约性结果。2.Sinclair 的 Corpus,Concordance,Collocation(1991)、Reading Concordances(2003)和 Trust the Text(2004)强调一切以文本为依归,语篇分析和语料库是语言语料库建设及使用专题研修班 28 研究的两大支柱。它们的结合有两点好处:1)我们可以对文本提出很多假设,然后用计算机的手段加以证实。2)它们所处理的型式维度都比语言学习惯于处理的要多一些。桂诗春,2014,语料库语言学答客问J,语料库语言学。七七、语料库资源、语料库资源:www.BFSU-corpus.org 小结:小结:语言学/翻译理论框架或研究思路比语料库技术更重要,自建语料库前要明确选题、理论视角及研究目的,根据研究的实际情况,确定具体的语料库软件进行检索、标注标记和文本处理,切忌盲目建库。作者:14 级外国语言学及应用语言学 钱家骏 2014 年 11 月 15 日

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2