文本分析工具PatCount在外语教学与研究中的应用 文档.docx

上传人:b****1 文档编号:2609676 上传时间:2023-05-04 格式:DOCX 页数:8 大小:21.73KB
下载 相关 举报
文本分析工具PatCount在外语教学与研究中的应用 文档.docx_第1页
第1页 / 共8页
文本分析工具PatCount在外语教学与研究中的应用 文档.docx_第2页
第2页 / 共8页
文本分析工具PatCount在外语教学与研究中的应用 文档.docx_第3页
第3页 / 共8页
文本分析工具PatCount在外语教学与研究中的应用 文档.docx_第4页
第4页 / 共8页
文本分析工具PatCount在外语教学与研究中的应用 文档.docx_第5页
第5页 / 共8页
文本分析工具PatCount在外语教学与研究中的应用 文档.docx_第6页
第6页 / 共8页
文本分析工具PatCount在外语教学与研究中的应用 文档.docx_第7页
第7页 / 共8页
文本分析工具PatCount在外语教学与研究中的应用 文档.docx_第8页
第8页 / 共8页
亲,该文档总共8页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

文本分析工具PatCount在外语教学与研究中的应用 文档.docx

《文本分析工具PatCount在外语教学与研究中的应用 文档.docx》由会员分享,可在线阅读,更多相关《文本分析工具PatCount在外语教学与研究中的应用 文档.docx(8页珍藏版)》请在冰点文库上搜索。

文本分析工具PatCount在外语教学与研究中的应用 文档.docx

文本分析工具PatCount在外语教学与研究中的应用文档

文本分析工具PatCount在外语教学与研究中的应用

近年来,随着计算机技术的发展和自然语言处理技术的不断进步,各种文本分析工具应运而生。

自以处理文本见长的计算机汇编语言Perl(PracticalExtractionandReportLanguage)问世以来,各种文本分析工具更是层出不穷,且功能越发强大,源代码开放程度不断提高。

受英语词汇处理软件Range(Nation,

2001)的启发,同时出于外语教学和研究的需要,北京外国语大学中国外语教育研究中心语言工程研究室研究开发了一种新型文本分析工具PatCount,可以很方便地根据使用者的需要和设定,统计大批量文本中的各种语言特征出现的频率,如各种由用户自定义的词汇、短语、被动语态、进行体、从句等多种语法结构等,极大地方便了文本的自动分析。

本文主要介绍这种工具的基本功能及其在外语教学和研究中的应用。

1PatCount的主要功能

任何研究的目的都可以归咎为对事物内在规律的探索,语言研究自然也不例外。

在很多情况下,语言及语言使用者的内在规律常常通过一些具体的特征在文本中表现出来,这些特征大致可以分为两种类型。

第一类是显性特征,如文本的长短(按字数计算)、段落的多少等,这些特征一般较为容易识别。

另一类特征是隐性特征,如文本中的词汇深度、说话人的思想和态度、高级.

句法结构等,这一类特征的识别常常较为复杂、耗时。

在外语教学和研究的实践中,如果需要处理的文本较多或较长(如处理对象为大型语料库),即便是显性特征的识别及其频数的计算也可能会耗费大量的时间和精力,甚至容易出错,而隐性特征的识别及其频数的计算就更复杂了。

语言特征的识别及其频数的统计与外语教学与研究息息相关,因而开发功能完善的文本分析软件就显得特别重要。

1.1

PatCount的主界面及其对正则表达式的支持

PatCount由北京外国语大学中国外语教育研究中心语言工程研究室开发,其名称来源于英文中的Pattern(模式)和Count(计数)两个词,是一种使用自然语

?

プ髡呒蚪椋毫好?

成:

博士,教授,北京外国语大学中国外语教育研究中心专职研究员。

研究方向:

语料库语言学、第二语言习得。

?

ば芪男拢翰┦浚?

副教授,北京外国语大学中国外语教育研究中心专职研究员。

研究方向:

语料库语言学、自然语言处理。

?

ナ崭迦掌冢?

2007-11-26?

セ?

金项目:

本研究得到教育部哲学社会科学研究项目(06JA740007)、教育部人文社科重点研究基地重大研究项目(07JJD740070)和北京外国语大学研究项目“英语文本特征提取量化工具的实现”的资助,特此致谢。

言处理中的模式匹配技术对大量文本进行自动分析的软件。

该软件的核心程序用Perl语言汇编而成,全面支持正则表达式,软件通过正则表达式的模式匹配技术,expressions)(regular

可以很方便地统计大量文本中多种语言特征的出现频率,以分析文本的语言特点。

该软件的界面用VisualC#语言汇编而成,十分简洁、友好(见图1),软件功能十分强大、运行速度快。

如图1所示,PatCount的主界面分为上下两个窗口。

PatCount的下部窗口为数据呈现窗口。

当程序读入模式文件和待分析文本后,运行程序,分析结果便会很快呈现于下部窗口。

PatCount以矩阵形式呈现分析结果,矩阵的行与程序读入的模式文件中的模式相对应,而矩阵的列与程序所分析的文本相对应,而每个单元格中的数据则指对应于该行模式的语言特征在对应于该列的文本中出现的频率。

比如,图1中下部窗口第1行第1列的数字9指的是在文本TEXT001.txt中9次使用了状语从句。

用户根据需要,可以直接在软件的上部窗口直接输入能够体现文本特征的词汇、短语乃至句法模式,或从预先编写好的模式文件中一次性读入多个模式表达式。

运行程序的分析功能之后,下部窗口显示分析结果,以表格形式分别列出被分析的各文本文件中包含有多少个用户需要观察的语言特征。

1.2PatCount与词汇分析工具Range的比较

Range是国际著名词汇研究者PaulNation等人设计、被广泛地用于分析阅读材料的词汇难度和学习者语言中词汇等级的软件。

与Range(参见Nation,2001;鲍贵,王霞,2005)相比,具有以下特点及优势:

PatCount

(1)利用Range自身配备的词表,PatCount可以实现与Range近乎相同的功能,即分析所读入的各文本中各等级词汇的数量及所占比率。

据笔者比较,PatCount对词表的处理速度与Range基本没有差异。

即将发布的PatCount1.0随程序包自带Range中的三个词表。

不仅如此,软件包中还附有欧洲英语教学分级词汇表(EETvocabularylist),便于使用者分析学习者文本及学生阅读材料的词汇难度等级。

(2)据Range的设计者在软件的说明中声称,Range可以同时处理32个文本。

据笔者尝试,新版本的Range可以一次性读入更多的短文本,但读入的文本如果过多或过长,有时会出现死机的现象。

相反,由于PatCount利用的是Perl的内核技术,可以一次性分析多至10000个文本中的10000个语言特征(因计算机内存的大小和硬件配置的不同,所花时间也会有所不同),且读入的文本数和模式表达式的行数越多,处理速度方面的优势越明显,一般可以在几秒钟内完成对长达数十万字的英文文本的分析。

即使计算机硬件配置较低,程序运行过程中也不会出现死机的现象。

(3)Range只能分析文本中的独立的单词,无法分析文本中短语和句法结构的使用情况。

因此,如果我们需要考察文本中的短语或句式的使用情况,Range便会变得无能为力。

由于短语是词汇的重要方面,无法处理短语是Range显而易见的一大缺陷。

不只可以分析文本中的单个词汇,更可以PatCount与此相比,

把分析扩展到词汇之外的短语乃至更大的语言单位(如文本中的句子数、生语料中的短语inaddition、asamatteroffact[参见图2],词性赋码后语料中的状语从句、进行时态、被动语态等多种句法结构的数目等)。

(4)支持对不可打印字符(non-printablecharacters)和非字母-数字字符串(non-alphanumericstrings)的处理。

在文本分析过程中,有时我们需要观察词汇、短语、句式之外的其它文本特征,如句子数、段落数、标点符号、空格等。

由于不可打印字符(如句首位置、段落标记等)、非字母-数字字符和非字母-数字字符串(如各种标点符号)可以很方便地用正则表达式来表达,因而PatCount所分析的内容也不局限于常规的字母-数字字符串。

例如,我们在编制模式文件时,可以使用正则表达式$\s*(^\s*)*来统计文本中的段落数。

考虑到普通用户不熟悉正则表达式,我们采取了两种措施,即①随程序包提供了模式库,模式库中包含大量常用的正则表达式,用户可以根据需要自由选取或在此基础上进行必要的修改;②提供了简洁、实用、针对语言处理的用户手册。

(5)统计结果可以在频数和比率间自由切换。

考虑到当文本长度不同时,频数能说明的问题十分有限,我们提供了频数和比率两种结果呈现方式,用户在“设置”中可以自由选择所需要的结果输出方式。

图1和图2中所示为频数呈现方式,图3所示为比率呈现方式。

(6)词汇分析软件Range的输出结果为文本格式文件,而PatCount的输出结果可以在文本格式和MicrosoftExcel格式之间选择。

由于MicrosoftExcel格式文件是一种兼容性很强的电子表格文件,十分方便对数据进行进一步的加工和处理(见图3)。

PatCount的以上特点使得它成为Range可靠的替代工具,同时也使它成为一种功能强大的句法特征分析工具。

2PatCount在外语教学中的应用

PatCount在外语教学领域有着广阔的应用前景,其中最值得一提的是其在阅读材料的选择方面的潜在应用前景。

根据Biber等人(1988;2001)基于大规模语料库的研究,不同语域的文本具有明显不同的语言特征。

因此,在外语教学中,对于不同的课程类型,应该为学生提供相应的语言输入材料。

比如,英语口语课上使用的输入材料一般是英美人的真实口语,而作为英语写作课的输入材料也通常是英美人的书面语。

不仅如此,即便同是书面语,由于体裁的不同和写作目的的不同,语言风格可能也很不相同。

例如,议论文与记叙文就具有多方面的差异。

因此,为了给学生提供最合适的输入材料,在为不同类型的课程选择输入材料时,既应该考虑输入材料的难度(包括词汇难度和句法难度),使得阅读材料中的生词占文章总词数的5%左右(Hu&Nation,

2000);同时还应该考虑输入材料的词汇、句法特征是否与学生体裁意识否则势必会使学生的语域、将要学习的文体特征相符,

淡薄,从而写出口语化的书面语、说出书面语化的口语。

近年来国内外这方面的研究颇多。

在外语教材编写的过程中,我们可以通过PatCount来侦测备选文本的语言特征。

首先,我们可以用PatCount或Range配以合适的词表来确定文本的词汇难度。

其次,我们可以参考Biber(1988)中所列出的、能够反映不同语域乃至不同体裁差异的语言特征,并将这些特征写成模式文件,然后由PatCount载入模式文件,对文本进行分析和挑选。

比如,根据Biber等人(2001)的研究,被动语态具有显著的书面语特征,而进行时态则具有显著的口语特征。

这样,我们可以对备选文本进行词性赋码处理,然后编制含有被动语态和进行时态的正则表达式模式(分别可以采用表达式\w+_VB\w+\s([?

穑?

w]+_[XR]\w+\s)*\w+_V\wN和\w+_VB\w+\s([?

穑?

w]+_[XR]\w+\s)*\w+_V\wG),通过PatCount对所有备选文本进行自动分析。

由于PatCount的输出结果中将各语言特征在每一个文本中出现的频数或比率以表格的形式逐一列出,十分便于文本间的比较。

比如,某一个文本中被动语态的出现比率为3.1%,进行时态的出现比率为0.05%;而另一个文本中被动语态的出现比率为0.02%,进行时态的出现比率为3.28%;仅凭这两个语言特征我们基本可以断定,前一个文本具有更为明显的书面语特征,而后一个文本具有显而易见的口语特征或记叙文特征。

诚然,在实际应用中,我能够反映文体差异的模应该使用更多的、们在分析文本特征时,

式。

有兴趣的读者可以参照Biber(1988)研究中所列出的语言特征。

总而言之,使用PatCount为学生选择输入材料应该参照以下主要步骤:

(1)将备选文本转为纯文本格式,必要时使用词性赋码工具对文本进行赋码;

(2)确定所需要分析的文本特征(建议参照有关研究成果),并将这些文本特征编写成本义字符串或正则表达式,保存为模式文件;

(3)运行PatCount软件,以比率方式输出结果,将分析结果保存为Excel格式;

(4)利用Excel或其它统计工具的统计功能,对各种文本特征进行求和和汇总等必要的处理;

(5)确定各文本的语言属性。

3PatCount在外语研究中的应用

PatCount也是一种实用的研究工具。

使用PatCount既可以进行文本特征的定量研究,又可以辅助深度的定性研究。

3.1文本特征提取及文本特征定量分析

一般说来,使用PatCount进行文本特征相关的定量研究可以通过比较的方法进行,分析何种文本特征主要取决于研究问题。

现以两个例子加以说明。

中国学生所写的篇,200有美国学生所写的英语作文例一:

英语作文200篇。

现欲分析中美学生作文中的“人称代词+情态动词”这一序列的使用情况,以发现学生是否过多或过少使用这类情态序列。

要回答以上研究问题,我们首先需要创建一个模式文件,文件中写入所有“人称代词+情态动词”序列对应的正则表达式(参见图4),保存为模式文件后运行PatCount读入该文件,并分别加载中国学生作文文本和美国学生作文文本,统计两批作文中各情态序列出现的频数,并将所得到统计结果从Excel文件导入SPSS或其它统计软件,进而对各类情态序列在两批语料中出现的频数进行独立样本T检验或求和后进行卡方检验,可以很方便地得知中国学生是否过多或过少使用了模式文件中列出的各种情态序列。

例二:

组织有经验的作文评分员对上例中的200中国学生作文逐一进行评分,根据评分结果将作文分为高分组和低分组。

现欲发现高低分作文在段落数量方面是否存在显著差异。

要回答以上问题,只需要编写一个模式文件,文件中使用正则表达式$\s*(^\s*)*来表示(一个或多个连续的)段落结束符,然后用PatCount读入模式文件,分别对高低分组作文进行自动分析,并将所得结果输入统计软件后进行卡方检验即可。

以上介绍的是PatCount在中介语对比分析(Contrastive

InterlanguageAnalysis)(Granger,1998;2002)中的应用方等人创立的多BiberDouglas法。

此外,由美国语料库语言学家.

维度分析方法(multidimensionalanalysis)是当今语料库研究领域的一种重要方法,这种方法主要通过语言特征的提取和统计运算来实现。

PatCount可以较好地满足这种需要,为这种研究方法的推广提供了一种方便的途径。

限于篇幅,本文对此不作介绍。

3.2定性数据分析及学习者语言错误分析

使用PatCount可以对文本中的定性数据进行量化分析。

一般说来,这种分析要求研究者首先对文本中的某些语言或非语言特征进行深度的分类,并按照分类对文本进行手工标注,而PatCount的主要用途在于迅速而准确地统计文本中已标注的各类特征。

例如,我们对若干名受试进行访谈,并将访谈内容转写为文本。

研究者根据转写文本,就受试对某类问题的态度进行分类,按照某种分类体系将受试的态度分为A、B、C三大类,其中每一大类又细分为三个子类,分别以AA,AB,AC,BA,BB,BC,CA,CB,CC进行标记,并将标记置于一对尖括号()之间,如以标记A类中的AA子类。

分类系统确定后,研究者对转写文本进行仔细阅读,按照以上确定的分类体系在文本中进行手工标注。

图5PatCount对定性研究数据的量化处理

图5所示为上例中三大类及其子类的频数列表。

以text01中的数据为例,其中,匹配所有各类(10),匹配A大类,统计结总和,(3,0,1)三个子类的频数AC、AB、AA大类中A为(4)果

而匹配AA子类,统计结果(3)为AA子类的频数总和,依此类推。

得到量化的定性数据后,研究者可以根据受试的类型和各类型数据的多少进一步分析受试对该问题的态度及其规律性。

定性研究的有效性常常取决于分类的理论基础、研究的设计和手工标注的准确性,而PatCount的作用在于迅速而准确地对定性数据进行归类和汇总,发现定性数据中的规律。

计算机辅助错误分析方法(Computer-assistedError

Analysis)也是当今应用语言学界进行中介语分析的一种常见方法(Granger,1998;2002)。

按照与以上介绍相类似的方法可以对学习者语言中的各种错误进行分析。

比如,按照某种分类体系,将学习者作文中的动词相关类错误分为VPA,VPB和VPC三个大类共八个小类,其中VPA细分为VPA1、VPA2和VPA3三小类,VPB细分为VPB1,VPB2和VPB3三小类,VPC细分为VPC1和VPC2两小类。

对学习者作文中的动词相关错误按照以上错误分类系统进行手工标注之后,将所有错误代码写入模式文件,用PatCount可以很方便地统计各大类和各小类错误的多少,研究者进而可以根据错误的多少与其它学习者变量之间的关系,分析学习者动词相关类错误的发生规律。

一般说来,研究者按照一定的理论依据提出一种可靠的分类方法,并在此基础上对文本进行手工标注之后,才可以使用PatCount对定性数据进行量化处理或对学习者语言中的错误类型进行分析。

4结论

为了方便广大外语教师和研究者,PatCount正式版将于近期随SWECCL2.0发布,发布时软件包中将附有若干个常用模式文件供用户选用和参考。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 人力资源管理

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2